La notion de population recouvre un concept difficilement rductible une dfinition unique. Au sens de la gntique, une population reprsente une entit de reproduction au sein dune espce (voir GP et chapitre V). Cette dfinition est nanmoins vague car elle ne prcise ni le type de reproduction, ni le critre permettant daffecter un individu une entit plutt qu une autre. Dans ce chapitre, nous considrons la population comme un ensemble dindividus possdant certaines caractristiques communes : il peut sagir des pieds de mas dune parcelle, dune colonie dinsectes dans une fort, des habitants de la commune de Marchastel (Lozre, 38 habitants) ou de la Rpublique Populaire de Chine (1,25 milliard dhabitants), etc. Pour dcrire la variabilit au sein dune population, une premire solution consiste fournir le rsultat brut de la collecte de donnes, cest--dire la liste des valeurs numriques mesures sur tous les individus pour les diffrents caractres observs. Le volume des donnes peut tre extrmement important et ne permet pas dapprhender correctement la situation gnrale de la population. Aussi, a-t-on recours aux statistiques, dont un des rles est de synthtiser linformation : le prsent chapitre renvoie donc lenseignement correspondant.
-9-
Figure 1. Distribution de la taille de 1 000 tudiants de sexe masculin de luniversit de Harvard (Etats-Unis), selon que lon constitue des classes de 10 cm (a) ou de 1 cm (b), et comparaison avec la courbe de la loi normale (c). Source : Castle, 1916
600
a Nombre
400 200 0
151-160
161-170
171-180
181-190
191-200
Taille (cm)
60
Nombre
40 20 0
150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
Taille (cm)
150
160
170
180
190
200
Taille (cm)
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 10 -
La figure 1 nous indique galement que la distribution de la taille, dans la population observe, se rapproche, dans sa forme, de la courbe en cloche caractristique de la loi normale (voir Stat). Ainsi, comme on la dj voqu dans lintroduction, les caractres quantitatifs prsentent une variation continue. La figure 2 montre quelques exemples de variation observe pour des caractres dimportance agronomique ou zootechnique. Mme lorsque le caractre mesur est par nature discontinu, car reprsentant la somme dun nombre dobjets distincts (on parle dans ce cas de caractres mristiques : nombre de grains sur un pi de mas, nombre de soies abdominales chez la drosophile, nombre de jeunes dans une porte de truie, etc.), le nombre de classes observes peut tre lev, et lon considre la variation de ce type de caractre comme continue (voir figure 2.d). La distribution normale est une distribution trs frquemment rencontre pour un grand nombre de caractres dans toutes les espces (voir figure 2). De ce fait, lanalyse statistique des caractres auxquels on sintresse en gntique quantitative est souvent facilite. Toutefois, les caractres pour lesquels on ne peut pas admettre la normalit de la distribution ncessitent un traitement appropri. Par exemple, une transformation mathmatique des donnes par des fonctions telles que le logarithme, la racine, etc. permet souvent de normaliser les distributions. 2. La moyenne La distribution reste nanmoins peu facile manipuler, et ne donne pas immdiatement une valeur reprsentative du caractre dans la population : si nous demandons un obsttricien combien pse un bb la naissance en France, il ne nous prsentera pas une courbe de distribution, mais nous rpondra, autour de 3,2 kg . La moyenne, ou esprance, est le concept statistique le plus utilis pour donner un ordre de grandeur dun caractre. Cependant, on peut parfois tre amen donner le mode (valeur la plus frquemment observe) ou la mdiane (valeur autour de laquelle leffectif de la population se rpartit quitablement). En cas de distribution normale, ces trois paramtres sont gaux.
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 11 -
Figure 2. Quelques distributions observes pour des caractres dimportance agronomique ou zootechnique.
N = nombre total dindividus ayant fait lobjet dune mesure a : Teneur en saccharose (%) dans la racine de betterave sucre. Varit du dbut du XXme sicle. (N = 42 997 ; Source : De Vries, 1909). b : Poids de grain (g) dans un pi de bl (N = 790 ; Source : INA P-G, 2000). c : Teneur en protines du lait de vache (g/kg), calcule sur lensemble de la lactation. Race Montbliarde, contrle de performances en ferme en 1988 (N = 251 705 ; Source : FNOCL, 1989). d : Taille de porte (nombre de jeunes ns par porte) chez la truie. Race Large-White, contrle de performances en ferme de 1990 2000. (N = 724 123 ; Source : ITP-INRA, 2000).
20 %
15 % 10
10 5
0 10 12 14 16 18 % 20
0 0 2 4 g 6
% 10
15 % 10
0 20 25 30 35 40 g/kg
0 1 4 7 10 13 16 19 22 25 28
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 12 -
3. La variance Pour dcrire lamplitude de la dispersion autour de la moyenne, on utilise le plus souvent la variance, qui est la moyenne des carrs des carts la moyenne (voir le mmento statistique en fin de ce chapitre) et sexprime dans le carr de lunit du caractre mesur. Lcart-type, quant lui, est gal la racine carre de la variance et sexprime dans lunit du caractre. A titre dillustration, le tableau 1 donne les paramtres des distributions reportes aux figures 1 et 2. Une proprit intressante de la loi normale est que lon peut facilement calculer la proportion dindividus dont la valeur se situe au-del (ou en de) dun certain seuil par rapport la moyenne ; des tables donnent ces proportions pour une loi normale centre rduite, cest--dire dont la moyenne est nulle et la variance est gale 1 (voir Stat). Ainsi, il est bien connu que, dans le cas dune distribution normale, 95 % des valeurs se situent dans un intervalle allant de -1,96 + 1,96 carts-types de part et dautre de la moyenne. Si lon prfre, on peut galement dire que seulement 2,5 % des valeurs se situent plus de 1,96 carts-types au-del de la moyenne, et rciproquement en de de la moyenne. A titre dexemple, la distribution de la teneur en protines du lait tant rigoureusement ajuste une distribution normale (figure 2.c), les chiffres du tableau 1 nous indiquent que 95 % des vaches Montbliardes contrles en 1988 ont eu une valeur de taux protique comprise entre 27,6 et 35,4 g/kg, ce qui reprsente un bon aperu du champ de variation du caractre dans la population considre.
Tableau 1. Caractristiques des chantillons pour lesquels la distribution des valeurs mesures a t donne (cf. figures 1 et 2).
Nombre dindividus mesurs 1 000 42 997 790 251 705 724 123
Caractre Taille (cm) Teneur en saccharose (%) Poids de grain par pi (g) Teneur en protines du lait (g/kg) Taille de porte
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 13 -
Figure 3. Relation entre le tour de poitrine (TP) et le poids dans un chantillon de 35 mles de bouquetin des Alpes (Capra ibex ibex). Source : Togo, 1998
60
Poids (kg)
40
20
0 60 80 TP (cm) 100
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 14 -
2. La corrlation
Le coefficient de corrlation (de Pearson) est le paramtre usuel pour quantifier lassociation entre deux variables. Ce coefficient se calcule comme tant le rapport de la covariance entre les deux variables au produit de leurs carts-types respectifs ; la covariance est lesprance du coproduit des deux variables centres (voir mmento statistique). Le coefficient de corrlation entre deux variables X et Y est sans dimension et varie de -1 +1. Il mesure le degr de
liaison linaire entre les deux variables mais nimplique pas toujours une relation de cause
effet. Si la corrlation est positive, les valeurs leves de Y sont prfrentiellement associes des valeurs leves de X. En cas de corrlation ngative, ce sont les valeurs faibles de Y qui sont associes prfrentiellement aux valeurs leves de X. Quand le coefficient de corrlation est lev en valeur absolue, lassociation est rigoureuse et le nuage de points est resserr autour dune droite. A contrario, une valeur proche de zro indique que la liaison linaire est imparfaite, une valeur de zro signifiant lindpendance linaire entre les deux variables. Lorsque deux variables suivent conjointement une loi normale, leur coefficient de corrlation est le meilleur indicateur de leur association statistique. A linverse, deux variables peuvent avoir entre elles une liaison forte mais non linaire (par exemple X sur lensemble des rels et
Y = X 2 ) et tre en corrlation nulle, car comme indiqu plus haut, la corrlation mesure une
liaison qui est de type linaire. Lorsque lon ne connat pas a priori le type de liaison entre deux variables, lobservation de leur distribution bidimensionnelle est indispensable et se restreindre au seul calcul du coefficient de corrlation pour juger de leur liaison peut conduire de grossires erreurs.
3. La rgression linaire
Lexistence dune corrlation linaire entre deux variables permet de prdire la valeur dune variable partir de la valeur prise par lautre variable. En effet, connaissant X, il est possible
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 15 -
Le coefficient de rgression (b) reprsente la pente de la droite, cest--dire la quantit selon laquelle, en moyenne, la variable Y varie lorsque la variable X crot dune unit. Quant au coefficient a, il reprsente simplement lordonne de la droite lorigine (c..d. le zro de la variable X). Les coefficients a et b de cette droite de rgression sont dtermins de faon
$ ) et les minimiser la variance derreur entre les valeurs prdites par lquation ci-dessus ( Y
valeurs relles de Y sur lchantillon considr (mthode des moindres carrs, voir Stat). Plus la corrlation entre les deux variables est leve, plus la prdiction de lune partir de lautre
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 16 -
MEMENTO STATISTIQUE
(inspir de Minvielle, 1990) Paramtre Symbole Moyenne Population de taille infinie Dfinition Symbole
$ X,
2
2 X 2 X
Champ de variation
, X
2 , 2 X
E X
b g FH
2
1 X n
-,+
2 2
Variance
V X , Var( X )
Covariance
XY Cov( X , Y )
Corrlation
XY r( X ,Y )
Rgression
Y / X bY / X
E X E X
2
XY
LMe X j d X i nOP Q N 1 L = X j nc X h O e M PQ n 1 N 1 d XY i d X id Y i n n 1
1 n 1
2 2
s XY = s X sY
0,+
-,+
LMe X N
2
d XY i d X id Y i n j FH d X i IK nOPQLMNe Y j FH d Y i IK nOPQ
2 2 2
2
-1,+1
Y/ X
s XY s2 X
2 X
$ b Y/ X
d XY i d X id Y i n LMe X j F d X i I nOP H K Q N
-,+
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 17 -
EXERCICES
Le tableau ci-dessous donne les valeurs numriques ayant servi ltablissement du graphe relatif la liaison entre le tour de poitrine (TP) et le poids chez 35 mles de bouquetin des Alpes (Togo, 1998 ; cf. figure 3 dans le chapitre I). A partir des lments partiels de calcul qui sont fournis, calculer : - la moyenne et lcart-type de chacun des caractres. - les coefficient de corrlation entre les deux caractres. - lquation de la droite de rgression permettant de prdire le poids en fonction du tour de poitrine. n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 TP (cm) 60,5 62,0 69,0 66,0 66,0 80,0 78,0 68,0 67,0 66,5 66,0 77,0 78,0 73,0 74,0 75,0 74,0 70,5 Poids (kg) 12,0 16,0 17,5 21,0 22,0 23,0 23,0 23,5 24,0 24,0 25,0 26,0 28,0 29,0 30,0 31,0 32,0 32,0 n 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 TP (cm) 80,0 78,0 78,0 89,0 81,0 81,0 86,0 87,0 82,0 85,0 82,0 86,0 82,0 88,0 94,0 88,5 91,0 Poids (kg) 34,0 34,0 34,0 36,0 36,0 37,0 37,0 37,0 42,0 43,0 44,0 44,0 44,0 46,0 46,0 48,0 50,0
Poids
TP x Poids
1 131,0 39 852,5 -
90 132,5
Institut National Agronomique Paris-Grignon. E. Verrier, Ph. Brabant, A. Gallais. Juillet 2001
- 18 -