Objet
Le diagramme de Henry (ou droite de Henry ) permet dapprcier ladquation dune distribution observe la loi de Gauss. En abscisse, x, on porte les valeurs observes ou les limites suprieures des classes lorsque les valeurs sont regroupes en classes. En ordonne, on porte le normit de x (la fonction normit sera dfinie la page 2). Sur ce systme daxes, des ralisations dune variable gaussienne donnent un nuage de points proche dune droite.
2,5 2 1,5 1 Normit de x 0,5 0 -0,5 -1 -1,5 -2 -2,5 x 35 40 45 50 55 60 65
Figure 1
Pour lexemple de la Figure 1, on peut supposer que les valeurs observes sont des ralisations d'une mme variable gaussienne. Note : le diagramme de Henry est un cas particulier de diagramme Quantile-Quantile (Voir les fiches Mthodes dajustements graphiques dans la page Excelense [2]). La prsente fiche explique comment faire un diagramme de Henry avec Excel et propose une aide linterprtation par des exemples. Le document joint Diagramme de Henry.xls fournit les donnes des exemples ainsi quune feuille de calcul toute faite pour vos propres donnes.
-1-
Numro 35
Principe
Nous invitons le lecteur non initi aux probabilits ou la statistique descriptive se reporter aux chapitres correspondants dans le manuel du groupe Les cercles dExcelense [3]. La construction du diagramme sopre de la manire suivante (voir la norme AFNOR Etude de la normalit d'une distribution [1]) : 1) On calcule leffectif cumul pour chaque x (valeur observe ou limite suprieure de la classe si les valeurs sont regroupes en classes), cest--dire le nombre de valeurs infrieures ou gales x. 2) On calcule la frquence cumule, cest--dire leffectif cumul divis par leffectif total. 3) On dtermine le fractile correspondant pour la loi de Gauss standard (le fractile dordre p est la valeur u telle que la probabilit cumule jusqu u est gale p). On obtient ainsi le normit de x (de langlais normal unit)
Probabilit cumule pour la loi de Gauss standard 1 Frquence cumule en x 0,5
Figure 2
4) On reprsente les couples (x ; y), avec y = normit de x, par un nuage de points. Prenons le cas o les valeurs observes sont des ralisations dune variable gaussienne standard. La frquence cumule en x des valeurs observes est alors proche de la probabilit cumule en x pour la loi de Gauss standard (dautant plus proche que le nombre dobservations est important). Le normit de x est donc proche de x.
Probabilit cumule ou frquence cumule 1 Frquence cumule en x 0,5 Fonction de probabilit cumule pour la loi de Gauss standard Fonction de frquence cumule des valeurs observes
Figure 3
Le nuage des points (x ; y), avec y = normit de x, est alors proche de la droite y = x. Prenons le cas dune variable gaussienne de moyenne thorique et dcart-type thorique quelconques. On revient une variable de Gauss standard en centrant et en rduisant la
Revue MODULAD, 2006
-2-
Numro 35
variable, cest--dire par la transformation x = (x )/. Le nuage des points sera donc dans ce cas proche de la droite dquation y = (x )/.
Figure 4
2) Calcul de la frquence cumule On divise leffectif cumul par leffectif total. Leffectif total peut tre obtenu en prenant le maximum des effectifs cumuls. En pratique, on augmente leffectif total dune unit pour que le normit puisse tre calcul sur la valeur x maximale. Dautres corrections sont possibles : voir la norme AFNOR [1].
Figure 5
-3-
Numro 35
3) Calcul du normit On applique aux frquences cumules la rciproque de la fonction de rpartition de la loi de Gauss standard : fonction LOI.NORMALE.STANDARD.INVERSE.
Figure 6
4) Reprsentation des couples (x ; y), avec y = normit de x, par un nuage de points On slectionne la plage des x et celle des normits (slection de plages discontinues avec la touche Ctrl), on clique sur licne Assistant graphique et on choisit Nuage de points. Pour lexemple, on obtient le graphique de la page 1.
Figure 7
Note : Dans la feuille dexemple, les effectifs des classes nont pas t saisis mais calculs partir des valeurs observes et des limites des classes. On a utilis la fonction FREQUENCE. On aurait pu utiliser la fonction NB.SI (voir la fiche Comment faire un histogramme dans le manuel [3]) ou passer par lUtilitaire danalyse Histogramme . Les effectifs cumuls se calculent en additionnant les effectifs depuis la premire classe.
-4-
Numro 35
Figure 8
Exemple 1
Leffectif (38 observations) ne justifie pas un regroupement en classes. Reprsentons la distribution des valeurs observes par un nuage de points.
65 60 55 50 45 40 35 0 10 20 30 40 Numro d'observation x
Figure 9
Peut-on faire lhypothse que ces valeurs sont des ralisations dune variable gaussienne ? On construit le diagramme de Henry. On obtient le diagramme de la Figure 1 (page 1). Le nuage tant proche dune droite, on na pas de raison de rejeter lhypothse.
Exemple 2
On a maintenant suffisamment dobservations pour regrouper les valeurs observes en classes et reprsenter leur distribution par un histogramme.
-5-
Numro 35
0,12 Densit de frquence 0,1 0,08 0,06 0,04 0,02 0 15 20 25 30 35 40 45 50 Valeur observe
Figure 10
La distribution est symtrique, en forme de cloche. A premire vue, il semblerait quon puisse la modliser par une loi de Gauss. Pour le confirmer, on construit le diagramme de Henry (avec les mmes classes mais en regroupant les classes de faible effectif).
3 2 Normit de x 1 0 -1 -2 -3 x 20 25 30 35 40 45 50
Figure 11
Le nuage de points tant proche dune droite, on peut modliser la distribution observe par une loi de Gauss. Remarque : Le diagramme de Henry permet dapprocher la moyenne et lcart-type des ralisations dune variable gaussienne lorsquon ne dispose que de la distribution des valeurs regroupes en classes. On repre la droite de tendance du nuage des points, ou droite de Henry , et on approche la moyenne par lintersection lorigine, m, et lcart-type par, s, linverse de la pente (voir la norme AFNOR [1]).
-6-
Numro 35
Normit de x
0 25 -1 30 35 40 45 x
m+s
-2
Figure 12
Pour lexemple, on obtient m = 33,2 et s = 4,2 (valeurs trs proches de la moyenne et de lcart-type des valeurs observes). On peut gnralement dterminer la droite au jug, les points tant quasi aligns dans le cas o les observations sont issues dune variable gaussienne et regroupes en classes. Attention : la fonction graphique dExcel Ajouter une courbe de tendance ne donne pas la droite de tendance dun nuage de points mais la droite de rgression. La droite de tendance dun nuage de points (x ; y) est la droite dquation y* = x* o y* et x* sont les valeurs de y et de x centres et rduites (pour la droite de Henry, il faut pondrer la moyenne et lcart-type par leffectif de la classe correspondante).
Exemple 3
La distribution observe est trs dissymtrique pour cet exemple.
0,2 Densit de frquence
0,15
0,1
0,05
0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 Valeur observe
Figure 13
Cette dissymtrie se traduit sur le diagramme de Henry par une tendance non linaire du nuage de points :
-7-
Numro 35
Figure 14
Une tendance dont la pente diminue avec x traduit une rpartition dissymtrique tale vers les valeurs importantes de x. La pente augmenterait dans le cas dun talement vers les faibles valeurs de x. Remarque : Un passage une chelle logarithmique (Clic double sur laxe des abscisses / Format / Echelle / Slectionnez Echelle logarithmique) donne une tendance linaire.
3 2,5 2 Normit de x 1,5 1 0,5 0 -0,5 1 -1 -1,5 x 10 100
Figure 15
Pour lexemple, on pourrait modliser la distribution par une loi de Gauss sur les logarithmes des observations.
Exemple 4
Comme pour lExemple 1, on travaille sur les donnes non regroupes parce que leffectif est faible.
-8-
Numro 35
75 70 65 60 55 50 45 40 35 30 25 0 5 10 15 20 25 30 35 40 45 50 55 Numro d'observation
Figure 16
La distribution est symtrique. Peut-on ici aussi supposer que les valeurs observes sont des ralisations dune variable gaussienne ? Construisons le diagramme de Henry.
2,5 2 1,5 1 Normit de x 0,5 0 -0,5 25 -1 -1,5 -2 -2,5 x 30 35 40 45 50 55 60 65 70
Figure 17
La forme de nuage traduit une distribution symtrique mais non gaussienne (ici, la distribution est plus proche de la loi uniforme que de la loi de Gauss).
Exemple 5
Le problme nest plus de tester ladquation une loi de Gauss. On a repr des valeurs extrmes (les observations n 16, 19 et 31) et on voudrait juger si ces observations sont aberrantes sous lhypothse dune distribution gaussienne.
-9-
Numro 35
25 23 21 19 17 15 13 11 9 7 5 0 5 10 15 20 25 30 35 40 Numro d'observation
Figure 18
Ces observations s'cartent de l'alignement dans le diagramme de Henry. On peut par consquent considrer quelles sont aberrantes sous lhypothse dune rpartition gaussienne.
2,5 2 1,5 1 Normit de x 0,5 0 -0,5 5 -1 -1,5 -2 -2,5 x
Figure 19
n 16
10
15
20
25
n 19 n 31
Remarques : Une observation nest pas aberrante en soi mais sous une hypothse de loi. Cette mthode est utilise pour dpouiller les rsultats des plans de criblage de facteurs. On parle alors de diagramme de Daniel . Voir le chapitre Plans dexpriences dans le manuel du groupe Les cercles dExcelense [3].
- 10 -
Numro 35
Rfrences
[1] AFNOR - Etude de la normalit d'une distribution. NF X 06-050, dcembre 1995 [2] Goldfarb B., Pardoux C. - Mthodes dajustements graphiques. Excel'ense - MODULAD n33, juillet 2005. www.modulad.fr [3] Morineau A., Chatelin Y.-M. (Coordinateurs) L'analyse statistique des donnes. Apprendre, comprendre et raliser avec Excel. Editions Ellipses, 2005.
- 11 -
Numro 35