Anda di halaman 1dari 47

TRIE, APLATISSEMENT ET ASYME RISTIQUES DES CARACTE ` DEUX CARACTE ` RES DISTRIBUTION A

D. Talarowski
Universit e dArtois

novembre

Sommaire
1. Lasym etrie 1. Le principe de lasym etrie 2. Les indcateurs dasym etrie 3. Exemples 2. Laplatissement 1. Le principe de laplatissement 2. Les indcateurs daplatissement 3. Exemples 3. Les caract eristiques des distributions ` a deux caract` eres 1. Les moyennes et variances marginales 2. Les moyennes et variances conditionnelles

1.Lasym etrie
1.1.Le principe de lasym etrie

Lasym etire se d enit vis-` a-vis dune valeur centrale (Moyenne, m ediane ou mode) Lasym etrie sert ` a d eterminer si la distribution est :
1. Aplatie ` a droite par rapport ` a la valeur centrale ; 2. Aplatie ` a gauche par rapport ` a la valeur centrale ; 3. Ou tout simplement equir epartie de part et dautre de la valeur centrale.

Lexistence dune asym etrie entra ne la non-confusion des trois valeurs centrales.

1.Lasym etrie
1.1.Le principe de lasym etrie (suite)

Il se d egage donc trois cas possibles :

1.Lasym etrie
1.1.Le principe de lasym etrie (suite)

Distribution Comportement des param` etres Asym etrique ` a gauche Mo > Me >X Sym etrique Mo = Me = X Asym etrique ` a droite Mo < Me < X

1.Lasym etrie I
1.2.Les indicateurs dasym etrie

A. Le coecient quartile dasym etrie ou coecient de Yule Ce coecient s ecrit : Cq = (Q3 Q2 ) (Q2 Q1 ) (Q3 Q2 ) (Q2 Q1 ) = (Q3 Q2 ) + (Q2 Q1 ) (Q3 Q1 )

Il est fond e sur la comparaison respectives des trois quartiles. Sur le m eme principe, on peut calculer ce coecient ` a partir des d eciles voire sur les centiles. Par exemple, un coecient d ecile dasym etrie serait : Cd = (D9 D5 ) (D5 D3 ) (D9 D5 ) (D5 D1 ) = (D9 D5 ) + (D5 D1 ) (D9 D1 )

1.Lasym etrie II
1.2.Les indicateurs dasym etrie

selon que lon sint eresse ` a lasym etrie ` a proximit e de la m ediane, au centre de la distribution (Cq ), ou au contraire, dans ses extr emit es, pour les valeurs plus eloign ees de sa m ediane (Cd , Cc ). Dans tous les cas : Coe. Distribution C =0 Sym etrique C < 0 Etal ee ` a gauche ee ` C > 0 Etal a droite

1.Lasym etrie
1.2.Les indicateurs dasym etrie

B. Le premier coecient dasym etrie de Pearson Il compare les positions respectives du mode et de la moyenne en tenant compte de la dispersion. Il s ecrit : CP 1 = Mo X 2

Comme pour le coecient pr ec edent : Coe. Distribution CP 1 = 0 Sym etrique CP 1 < 0 Etal ee ` a gauche CP 1 > 0 Etal ee ` a droite Ce coecient nest utilisable que si la distributions est faiblement asym etrique.

1.Lasym etrie I
1.2.Les indicateurs dasym etrie

C. Le second coecient dasym etrie de Pearson et le coecient dasym etrie de Fisher Le second coecient de Pearson s ecrit : CP 2 =
3 2 (MX ) 2 3 (MX )

Cest le rapport du carr e du moment centr e dordre 3 par rapport ` a la moyenne et le cub centr e dordre 2 par rapport ` a la moyenne (la variance), avec :
3 2 3 (MX ) = m3 + 3m1 m2 + 2(m1 )

1.Lasym etrie II
1.2.Les indicateurs dasym etrie

et,
2 3 2 (MX ) = V (x ) = m2 (m1 )

(mi etant le moment simple dordre i ). Une distribution sym etrique donnera un CP 2 nul et une distribution asym etrique un coecient CP 2 positif. Le coecient dasym etrie de Fisher est la racine carr e du second coecient de Pearson : CF = CP 2 =
3 MX 3

Cest le rapport du moment centr e dordre 3 par rapport ` a la moyenne et du cube de l ecart-type.

1.Lasym etrie III


1.2.Les indicateurs dasym etrie

Sil est calcul e directement (et non par la racine carr e du second coe. de Pearson), le coecient de Fisher peut etre positif, n egatif ou nul. Il est nul si la distribution est sym etrique, n egatif si elle est etal ee ` a gauche, positif si elle est etal ee ` a droite.

1.Lasym etrie I
1.3.Exemples

Distribution dune population de 24 etudiants selon leur taille (en m` etres) : Taille (m) < 1, 60 [1, 60 ; 1, 70[ [1, 70 ; 1, 80[ [1, 80 ; 1, 90[ 1, 90 ni Ni xi ni xi ni (xi x )2 6 6 1,55 9,3 0,1134 7 13 1,65 11,55 0,0098 8 21 1,75 14 0,0312 2 23 1,85 3,7 0,0528 1 24 1,95 1,95 0,0689 24 40,5 0,2761 ni (xi x )3 -0.0156 -0,0003 0,0019 0,0085 0,0180 0,0125

1.Lasym etrie II
1.3.Exemples

Les quartiles n ecessaires sont les suivants : Q1 = 1, 60 m Q2 = 1, 60 + Q3 = 1, 70 + (18 13)(1, 80 1, 70) = 1, 685 m (13 6) (18 13)(1, 80 1, 70) = 1, 7625 m (21 6)

Les moments n ecessaires sont :


2 Mx = i

ni (xi x )2 0, 2761 = = 0, 0115 m2 N 24

1.Lasym etrie III


1.3.Exemples

3 Mx =

ni (xi x )3 40, 5 = = 0, 0005 m3 N 24 =


2 Mx = 0, 1072 m

et,

40, 5 = 1, 6875 m et , Mo = [1, 70 ; 1, 80[ m 24 Le coecient de Yule est : x = Cq = (Q3 Q2 ) (Q2 Q1 ) (Q3 Q2 ) (Q2 Q1 ) = (Q3 Q2 ) + (Q2 Q1 ) (Q3 Q1 )

1.Lasym etrie IV
1.3.Exemples

(1, 7625 1, 6850) (1, 685 1, 600) = 0, 0461 (1, 7325 1, 6000)

Le premier coecient de Pearson est : CP 1 = Mo X 1, 6875 1, 7500 = = 0, 583 2 0, 1072

Le second coecient de Pearson est : CP 2


3 2 (MX (0, 0005)2 ) = = 0, 1643 = 2 3 (MX (0, 0115)2 )

1.Lasym etrie V
1.3.Exemples

Le coecient de Fisher : CF =
3 MX 0, 0005 = = 0, 4058 3 (0, 1072)3

Les 4 indicateurs concordent et aboutissent tous ` ala conclusion que la distribution est asym etrique puisquils sont di erents de z ero. Toutefois, ils divergent sur le sens de lasym etrie. Le coecient de Yule et le premier coecient de Pearson concluent ` a un etalement ` a gauche de la distribution alors que le second coecient de Pearson et le coecient de Fisher vont dans le sens dun etalement de la distribution ` a droite. La divergence

1.Lasym etrie VI
1.3.Exemples

des r esultats est li ee au fait que ces indicateurs sont construits di eremment et quils envisagent de fait lasym etrie di eremment. La distribution etudi ee nest pas clairement etal ee ` a gauche ou ` a droite.

2.Laplatissement
2.2.Le principe de laplatissement

Une distribution statistique peut etre plus ou moins aplatie selon quune proportion plus ou moins grande des observations est proche de son mode. Plus une une forte proportion des individus prendra une valeur proche de celle du mode de la distribution, sera concentr ee autour du mode, plus laplatissement sera faible. Graphiquement on aura :

2.Laplatissement
2.1.Le principe de laplatissement (suite)

Une distribution aplatie ou leptokurtique

2.Laplatissement
2.1.Le principe de laplatissement (suite)

Une distribution moyennement aplatie ou m esokurtique

2.Laplatissement
2.1.Le principe de laplatissement (suite)

Une distribution fortement aplatie ou platykurtique

2.Laplatissement I
2.2.Les indicateurs daplatissement

A.Le coecient daplatissement Il utilise le 4` eme moment centr e par rapport ` a la moyenne 4 (MX ecart-type, et s ecrit : ) et l a1 =
4 MX ( )4

Il est parfois appel e coe. daplatissement de Pearson et indique : 1. une distribution normale si a1 = 3 2. une distribution platykurtique si a1 < 3 3. une distribution leptokurtique si a1 > 3

2.Laplatissement II
2.2.Les indicateurs daplatissement

4. Laplatissement est dautant plus fort que a1 est faible et proche de 1 5. Laplatissement est dautant plus faibel que a1 est fort. Compte tenu du fait que ce coe. a1 prend la valeur 3 pour une distribution normale, on propose souvent comme indicateur daplatissement ce coecient modi e sous la forme : a1 = (ai 3) =
4 MX 3 ( )4

Ce coe. de Pearson modi e, parfois appel e coe. de Fisher, prend la valeur 0 pour une distribution normale, est n egatif pour une distribution platykurtique et positif pour une distribution leptokurtique.

2.Laplatissement I
2.2.Les indicateurs daplatissement (suite)

B.Le coecient quantile daplatissement Il est fond e sur les quartiles et les d eciles et s ecrit : a2 = Q (Q3 Q1 ) avec Q = (D9 D1 ) 2

Il sinterpr ete comme suit : 1. a2 = 0, 263 pour une distribution normale 2. plus a2 est fort et plus la distribution est aplatie 3. a2 est toujours compris entre 0 et 1

2.Laplatissement I
2.3.Exemples

Distribution dune population de 24 etudiants selon leur taille (en m` etres) : Taille (m) < 1, 60 [1, 60 ; 1, 70[ [1, 70 ; 1, 80[ [1, 80 ; 1, 90[ 1, 90 ni Ni xi ni xi ni (xi x )2 6 6 1,55 9,3 0,1134 7 13 1,65 11,55 0,0098 8 21 1,75 14 0,0312 2 23 1,85 3,7 0,0528 1 24 1,95 1,95 0,0689 24 40,5 0,2761 ni (xi x )4 0,0021 0 0,0001 0,0014 0,0047 0,0083

2.Laplatissement II
2.3.Exemples

N = 24 La moyenne arithm etique est : = X L ecart-type est : = V (X ) =


i i

ni xi 40, 5 = = 1, 6875 N 24

)2 ni (xi X = N

0, 2761 = 0, 1072 m 24

Le moment centr e dordre 4 par rapport ` a la moyenne arithm etique est :


4 MX = i

ni (xi X = 0, 0003 m4 N

2.Laplatissement III
2.3.Exemples

Les deux quartiles (Q1 et Q3 ) sont : 3N N =6, = 18 , Q1 = 1, 60 m 4 4 Q3 = 1, 70 + (18 13)(1, 80 1, 70) = 1, 7625 m (21 13)

Les deux d eciles n ecessaires (D1 et D9 ) sont : N 9N = 2, 4 , = 21, 6 10 10 D1 = 1, 50 + (2, 4 0)(1, 60 1, 50) = 1, 54 m (6 0)

2.Laplatissement IV
2.3.Exemples

D9 = 1, 80 +

(21, 6 21)(1, 90 1, 80) = 1, 83 m (6 0)

Le coecient daplatissement (coe. daplatissement de Pearson) est :


4 MX 0, 0003 a1 = 4 = = 2, 2716 (0, 1072)4

ou, a1 = (a1 3) = 0, 7284

2.Laplatissement V
2.3.Exemples

La distribution appara t comme platykurtique, plus aplatie quune distribution normale, puisque : a1 < 3 et a1 < 0 Le coecient quantile daplatissement est : a2 =
Q3 Q1 2

(D9 D1 )

1,76251,60 2

(1, 83 1, 54)

= 0, 2801

Pour cet indicateur, la distribution appara t egalement plus apatie quune distribution normale, puisque a2 > 0, 263. Cependant, pour ces deux indicateurs, il faut noter que cet applatissement nest que l eg` erement plus important que celui dune distribution normale, dont il reste proche.

3.Les caract eristiques des distributions ` a deux caract` eres I


3.1.Les moyennes et variances marginales

Les distributions statistiques ` a deux caract` eres sont pr esent ees sous forme de tableaux statistiques ` a deux dimensions dont les distributions marginales sont les distributions de chacun des deux caract` eres, etudi es s epar ement, sans condition quant ` a la modalit e prise par lautre caract` ere. Prenons par exemple la distribution de 29 salari es dune petite entreprise selon leur age (X ) et leur salaire mensuel en milliers deuros (Y ) pr esent ee dans le tableau statistique ` a deux dimensions suivant :

3.Les caract eristiques des distributions ` a deux caract` eres II


3.1.Les moyennes et variances marginales

X /Y <20 20-30 30-40 40-50 50-60 60

< 1 1-1,5 1,5-2 2-2,5 2, 5 1 0 0 0 0 1 3 1 1 0 1 1 0 2 0 1 0 4 2 4 1 1 0 3 2 0 0 0 1 0 4 5 5 9 6

1 6 4 11 6 1 29

Elle permet dobtenir les deux distributions marginales de X et Y suivantes :

3.Les caract eristiques des distributions ` a deux caract` eres III


3.1.Les moyennes et variances marginales

xi ni <20 1 20-30 6 30-40 4 40-50 11 50-60 6 60 1 29

3.Les caract eristiques des distributions ` a deux caract` eres IV


3.1.Les moyennes et variances marginales

yi <1 1-1,5 1,5-2 2-2,5 2, 5

ni 4 5 5 9 6 29

De ces deux distributions marginales, on peut ensuite calculer les moyennes arithl etiques et les variances comme pour toute distribution statistique ` a un caract` ere, soit :

3.Les caract eristiques des distributions ` a deux caract` eres V


3.1.Les moyennes et variances marginales

Pour l age des salari es (X ) : = 1 X N V (X ) = 1 N ni xi = 41, 20ans


i

)2 = 147, 67(ans )2 ni (xi X


i

Pour le salaire mensuel des salari es (Y ) = 1 Y N nj yj = 1, 88 103 euros


j

3.Les caract eristiques des distributions ` a deux caract` eres VI


3.1.Les moyennes et variances marginales

V (Y ) =

1 N

)2 = 0, 44 103 (euros )2 nj (yj Y


j

Ces caract eristiques marginales sont appel ees respectivement moyennes et variances marginales des deux caract` eres X et Y . Traditionnellement, on note : : la moyenne marginale dun caract` 1. X ere X ; 2. V (X ) : La variance marginale de X

3.Les caract eristiques des distributions ` a deux caract` eres VII


3.1.Les moyennes et variances marginales

Dans la notation compl` ete des modalit es des variables et des eectifs ` a deux dimensions, on a : = 1 X n V (X ) = avec : n =
i

ni xi =
i i

fi xi )2 fi (xi X
i

1 n

)2 = ni (xi X
i i fi

ni et : = 1 Y n

= 1 Pour Y : fj yj
j

nj yj =
j

3.Les caract eristiques des distributions ` a deux caract` eres VIII


3.1.Les moyennes et variances marginales

V (X ) =

1 n

)2 = nj (yj Y
j j

)2 fj (xj Y

avec : n = j nj et : j fj = 1 Cependant, au-del` a de la lourdeur de ce syst` eme de notation, ce sont bien des moyennes et variances de distributions statistiques ` a une dimension qui sont calcul ees, et dans lexemple pr ec edent, on retrouve normalement : = 41, 20 ans et V (X ) = 147, 68 (ans )2 X

3.Les caract eristiques des distributions ` a deux caract` eres IX


3.1.Les moyennes et variances marginales

et, = 1, 88 103 euros et V (Y ) = 0, 44 103 (euros )2 Y

3.Les caract eristiques des distributions ` a deux caract` eres I


3.2.Les moyennes et variances conditionnelles

Les distributions statistiques ` a deux caract` eres sont pr esent ees sous la forme de tableaux statistiques ` a deux dimensions dont chaque distribution conditionnelle est la distribution dun caract` ere si lautre prend lune de ses modalit es. Par exemple, si on reprend lexemple de la section pr ec edente pour la distribution de 29 salari es dune petite entreprise selon leur age (X ) et leur salaire mensuel en milliers deuros (Y ), on aura 6 distributions conditionnelles de Y (correspondant ` a chacune des 6 modalit es de X ), et 5 distributions conditionnelles de X (correspondantes ` a chacune des 5 modalit es de Y ).

3.Les caract eristiques des distributions ` a deux caract` eres II


3.2.Les moyennes et variances conditionnelles

Par exemple, parmi les 11 distributions conditionnelles de X ou de Y envisageable, on a comme distribution conditionnelles : de l age (X ) si le salaire est compris entre 1000 euros et 1500 euros (de X si Y = y2 ) : xi ni <20 0 20-30 3 30-40 1 40-50 0 50-60 1 60 0 5

3.Les caract eristiques des distributions ` a deux caract` eres III


3.2.Les moyennes et variances conditionnelles

du salaire (Y ) si l age (X ) est compris entre 20 et 30 ans (de Y si X = x1 ) : yi ni <1 1 1-1,5 3 1,5-2 1 2-2,5 1 2, 5 0 6

3.Les caract eristiques des distributions ` a deux caract` eres IV


3.2.Les moyennes et variances conditionnelles

De chacune de ces distributions conditionnelles possibles de la distribution ` a deux caract` eres (11 dan cet exemple), on peut ensuite calculer les moyennes arithm etiques et les variances comme pour une distribution statistique ` a un caract` ere. Soit, dans les deux exemples de distributions conditionnelles ci-dessus : Pour la distribution de l age (X ) des salari es si leur salaire est compris entre 1000 et 1500 euros (distribution de X si Y = y2 , on aura : = 1 X N ni xi = 33 ans
i

3.Les caract eristiques des distributions ` a deux caract` eres V


3.2.Les moyennes et variances conditionnelles

et, V (X ) = 1 N )2 = 136 (ans )2 ni (xi X


i

On les appelle respectivement moyenne et variance de X si Y = y2 . Pour le salaire (Y ) si l age est compris entre 20 et 30 ans (distribution de Y si X = x2 ), on aura : = 1 Y N nj yj = 1, 41 103 euros
j

3.Les caract eristiques des distributions ` a deux caract` eres VI


3.2.Les moyennes et variances conditionnelles

et, V (Y ) = 1 N )2 = 0, 22(103 euros )2 nj (yj Y


j

que lon appelle alors moyenne de Y si X2 On note : pour X : j : la moyenne conditionnelle de X si Y = yj X Vj (X ) : la variance conditionnelle de X si Y = yj pour Y :

3.Les caract eristiques des distributions ` a deux caract` eres VII


3.2.Les moyennes et variances conditionnelles

i : la moyenne conditionnelle de Y si X = xi Y Vi (Y ) : la variance conditionnelle de Y si X = xi Dans la notation compl` ete des modalit es des variables et des eectifs ` a deux dimensions, on a alors : Pour X : j = 1 X nj nij xi et Vj (X ) =
i

1 nj nij

j )2 nij (xi X
i

avec nj =
i

3.Les caract eristiques des distributions ` a deux caract` eres VIII


3.2.Les moyennes et variances conditionnelles

Pour Y : y i = 1 ni nij yj et Vi (Y ) =
j

1 ni nij

i )2 nij (yi Y
j

avec ni =
j

Encore une fois, il ne sagit pas ici que de simples calculs de moyennes et variances de distributions statistiques ` a une dimension.

3.Les caract eristiques des distributions ` a deux caract` eres IX


3.2.Les moyennes et variances conditionnelles

Ainsi, dans es deux exemples pr ec edents, on trouve : 2 = 33 ans et V2 (X ) = 136(ans )2 X et, 2 = 1, 41 103 euros et V2 (Y ) = 0, 22 (103 euros )2 Y