Anda di halaman 1dari 35

Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Année Académique : 2017 - 2018

MINISTERE DE L’AGRICULTURE ET DU DEVELOPPEMENT RURAL

BIOSTATISTIQUE ET PLANS D’EXPERIENCES

Support de cours BTS AGROTRANSFORMATION

Cours proposé par M. Gédéon DOUA, Professeur de Génie Alimentaire

I n s t i t u t N a t i o n a l d e F o r m a ti o n P r o f e s s i o n n e l l e A g r i c o l e 2018

Téléphone : +225 22-43-71-53 Fax: +225 22-43-71-15 Email: info@infpa.ci Site Web : www.infpa.ci

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 0


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

PARTIE I : BIOSTATISTIQUE

CHAPITRE 1 : INTRODUCTION

1. ORIGINE ET DEFINITION

L’origine du mot « statistique » remonte au latin classique status (état) qui, par une série
d’évolutions successives, aboutit au français statistique, attesté pour la première fois en 1771.
C’est vers la même époque que statistik apparaît en allemand, alors que les anglophones utilisent
l’expression political arithmetic jusqu’en 1798, date à laquelle le mot statistics fait son entrée dans cette
langue. A l’origine, cette discipline concerne donc les affaires de l’Etat.
Actuellement, on distingue généralement les statistiques (au pluriel) de la statistique (au
singulier).
Les statistiques peuvent être définies comme l’étude méthodique des faits sociaux qui définissent un Etat,
par des procédés numériques (dénombrements, inventaires, recensements,…)
Le second sens n’apparaît que vers 1830. C’est celui qui est abordé dans ce cours. Nous définirons la
statistique comme étant l'art de recueillir, présenter, analyser et utiliser des observations (des données)
afin d'aider à la prise de décisions et à la résolution de problèmes. L’application de cette discipline à la
biologie et aux sciences apparentées comme la transformation du vivant constitue la Biostatistique.
L’inclusion d’un cours de statistiques dans un programme de techniciens supérieurs en
agrotransformation s’explique par le fait que la résolution d’un grand nombre de problèmes en
agrotransformation fait appel à une compréhension de la variabilité ainsi qu’à une connaissance des outils
descriptifs et analytiques reliés à la variabilité.
En effet, le premier phénomène qui ressort des observations statistiques est la variabilité des données.

2. HISTORIQUE

De tous temps, les chefs d’Etat ont souhaité déterminer la puissance des nations qu’ils dirigeaient à l’aide
de recensements partiels ou complets (population, territoire, production,…)

Dès 3000 av. J.-C., on trouve mention de collectes d’observations sur les biens et les personnes en
Mésopotamie.

En 1200 av. J.-C., des évaluations de productions agricoles sont effectuées en Chine.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 1


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Au début de notre Ere a lieu un dénombrement des richesses de l’Empire Romain, rendu célèbre par sa
mention dans l’Evangile de Luc.

Au XVIIe Siècle, pour éviter le recensement lourd et onéreux, William Petty (1623-1687) met au point
une méthode de comptage de la population de Londres sur base des proportions moyennes entre :

 les maisons
 les feux (ménages) par maison
 la composition des familles

Au XIXe Siècle, les recensements proprement dits reprennent de l’importance et, en 1853, a lieu à
Bruxelles le 1er Congrès International de Statistique, sous l’impulsion d’Adolphe Quételet (1796-1874,
astronome et mathématicien belge, un des fondateurs de la science statistique). L’objectif de ce congrès
est d’uniformiser les techniques de compilation des statistiques nationales, en vue de faciliter les
comparaisons.

Au début du XXe Siècle, un débat oppose les partisans des recensements (réalisés sur l’ensemble de la
population) et des sondages (réalisés sur un échantillon représentatif de la population).

Les recensements ne sont pas toujours possibles, ni souhaitables. Dans certains cas, ils peuvent être trop
chers (comme, par exemple, des enquêtes sur toute la population d’un pays). Ils peuvent aussi contenir
des erreurs. Parfois, ils sont carrément aberrants (par exemple, mesurer la solidité moyenne d’un type de
voiture en lançant toutes les voitures de ce type contre un mur serait commercialement inacceptable).

Pour pallier ces inconvénients, on a recours au sondage statistique, qui consiste à déduire les propriétés
de toute une population à partir de l’analyse d’un échantillon.

Il est capital que l’échantillon soit choisi et analysé de manière adéquate. En particulier, il faut que
l’échantillon soit représentatif de la population. Un échantillon non représentatif est dit biaisé.

CHAPITRE 2: PRESENTATION DES DONNEES

1. TABLEAUX ET DIAGRAMMES

Supposons que l’on réalise un sondage dont l’unique question est la suivante : Quelle est la boisson que
vous consommez le plus fréquemment avec le repas du soir ?
Les réponses peuvent être choisies dans la liste suivante : eau (E) – Limonade (L) – Bière (B) – Vin (V) –
Café (C) – Thé (T) – Alcool (A) – Divers autres (D). Les résultats bruts de l’enquête sont notés sur des
formulaires nominatifs (dans ce cas fictif) :
Delphine Rose Jean Marylin Maude Stéphanie Julie Olivier Johanne Julien
Philippe
L V L C E B B D B E

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 2


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Sandrine Justine Anita Stéphanie Christine Kristel Aurore Jean François Fabian
Yves Michael
V V L B B V A B E B

Louise Stéphane Anthony Barbara Macha


L A E B B

La liste détaillée des résultats ne se prête pas bien à une interprétation globale. Mais les réponses peuvent
être regroupées sous forme de tableau permettant une meilleure vue d’ensemble.

Une telle représentation où


chaque individu est représenté
par un cercle est un peu lourde
et devient fastidieuse dès que la
taille des échantillons croît.

E L B V C T A D

On peut remplacer les empilements de cercles par des barres dont la hauteur est proportionnelle au
nombre d’individus repris dans cette catégorie. C’est le diagramme à barres

p
8 32 % o
n u
o 6 24 % r
m c
b e
4 16 %
r n
e t
2 8 % a
g
0 0 % e
E L B V C T A D

Ce diagramme à barres peut aussi donner le pourcentage d’individus dans chaque catégorie.

Le diagramme sectoriel ou « camembert » se prête très bien à la représentation des pourcentages.


On dessine un disque découpé en secteurs ou « morceaux de tarte ». L’angle au centre de chaque secteur
est proportionnel au pourcentage d’individus dans la catégorie correspondante.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 3


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

2. VARIABLES DISCRETES ET VARIABLES CONTINUES

Les cas que nous avons rencontrés jusqu’à présent correspondent à des variables discrètes, car les
résultats peuvent seulement prendre des valeurs bien spécifiques, qui ne sont généralement pas
numériques (eau, vin,...).
On rencontre aussi des variables continues. Dans ce cas, les résultats (numériques) peuvent prendre
n’importe quelle valeur (éventuellement entre des limites inférieure et supérieure).
Exemple : étude de la taille d’un ensemble d’individus.
Si on effectue les mesures avec suffisamment de précision, il sera rare que deux individus aient
exactement la même taille.
Une représentation graphique conservant toute la précision de la mesure sera peu utile, et d’interprétation
difficile.

1 .7 0 m 1 .7 5 m 1 .8 0 m

On regroupera les mesures par classes judicieusement choisies (par exemple 2 cm) et on
comptera le nombre d’individus par classe.

1 ,7 0 m 1 ,7 5 m 1 ,8 0 m

Ce qui nous donnera :


1,701 à 1,720 1,721 à 1,740 1,741 à 1,760 1,761 à 1,780 1,781 à 1,800 1,801 à 1,820
m m m m m m

3 3 5 6 4 3

On peut alors représenter les résultats comme dans le cas discret. En particulier, on rencontrera souvent le
diagramme à barres (accolées, dans ce cas) aussi appelé histogramme.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 4


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

8 p

n 30 % o

o u
6
m r
20 % c
b
4 e
r
n
e
10 % t
2
a
g
0 0 %
e
1 .7 1 1 .7 3 1 .7 5 1 .7 7 1 .7 9 1 .8 1

ta ille

Les classes sont généralement repérées par leur centre, mais elles doivent être définies par leurs
extrémités.

3. CHOIX DE LA LARGEUR DES CLASSES.

La largeur choisie pour les classes dépendra :


 de la finesse de la représentation désirée (si on veut faire la distinction entre des individus dont
la taille diffère de 5 cm, on ne va pas choisir des classes plus larges, par exemple 10 cm !)
 de la taille de l’échantillon étudié.
Pour que la représentation ait suffisamment de précision, il faut que chaque classe contienne, en général,
un nombre suffisant d’individus.
Exemple : Les notes obtenues à un examen par 50 élèves sont données dans le tableau suivant :
0.0 2.1 6.1 7.8 9.5 10.4 12.1 12.8 13.9 14.8
0.0 3.2 6.2 8.2 9.6 10.5 12.4 12.8 14.2 15.5
0.5 4.5 7.2 9.1 9.9 11.1 12.5 12.9 14.6 16.1
1.2 5.3 7.2 9.1 9.9 11.8 12.6 13.0 14.7 16.8
1.7 5.3 7.4 9.5 10.1 11.9 12.6 13.7 14.7 18.2
L'allure de l'histogramme change en fonction de la largeur choisie pour les classes:

Classes de 1 cm:

20
n
o
m
b
r 10
e

0
0 5 10 15 20
ré s u lta t s u r 2 0 p o in ts

Classes de 2 cm:

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 5


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

20
n
o
m
b
r 10
e

0
0 5 10 15 20
ré s u lta t s u r 2 0 p o in ts

Classes de 4 cm:

20
n
o
m
b
r 10
e

0
0 5 10 15 20
ré s u lta t s u r 2 0 p o in ts

Classes de 5 cm:

20
n
o
m
b
r 10
e

0
0 5 10 15 20
ré s u lta t s u r 2 0 p o in ts

4. POLYGONE DES FREQUENCES OU DES EFFECTIFS

5.

Pour obtenir ce polygone, on raccorde les sommets des barres, au centre de chaque classe, par des
segments de droite.

p
8 o
n 30 % u
o 6 r
m c
20 %
b e
4
r n
e t
10 %
2 a
g
0 0 % e
1 .7 1 1 .7 3 1 .7 5 1 .7 7 1 .7 9 1 .8 1

ta ille (m )

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 6


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

On obtient donc une série de points reliés par des segments de droite. L’abscisse de chaque point
correspond au centre de la classe. La hauteur de chaque point (son ordonnée) correspond au nombre
d’individus dans la classe (polygone des effectifs) ou au pourcentage d’individus dans la classe (polygone
des fréquences).

6. BIEN INTERPRETER LES GRAPHES

Il est courant d’entendre déclarer que l’on fait dire aux statistiques ce que l’on veut. Par exemple, il est
possible de présenter les résultats de manière à amener le lecteur peu attentif à accepter une conclusion
erronée.
Le but de ce paragraphe est d’illustrer cette pratique par un exemple, afin de donner quelques clefs pour
interpréter correctement les graphes parfois trompeurs.

Tirage de journaux concurrents

Le graphique suivant est paru en 1981 dans le New Yorker Post, sous le titre « Ascension du Post, le
quotidien préféré des New-Yorkais ».
Le but de ce graphique est de convaincre le lecteur que la croissance du tirage du Post va bientôt l’amener
en première position, devant le News qui périclite.
On remarque deux artifices utilisés pour exagérer la tendance :
1. L’échelle verticale ne démarre pas en zéro. C’est une présentation acceptable, mais qui renforce les
variations apparentes.
2. L’échelle verticale est discontinue.
Alors que deux graduations successives sont séparées de 100.000 unités, on passe brutalement de
800.000 à 1.500.000 dans l’intervalle séparant le Post du News. Les tirages des deux journaux
paraissent, de ce fait, beaucoup plus proches que dans la réalité.

1 900 000

1 800 000

NEW S
1 700 000

1 600 000

1 500 000

800 000

700 000

600 000

PO ST
500 000

1977 1978 1979 1980 1981 1982

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 7


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Une telle présentation ne serait admissible que si la discontinuité de l’échelle était clairement
indiquée, par exemple par des pointillés :

1 900 000

1 800 000

NEW S
1 700 000

1 600 000

1 500 000

800 000

700 000

600 000

PO ST
500 000

1977 1978 1979 1980 1981 1982

La version correcte, plus « honnête », du graphique, est la suivante :

n
o
2 000 000
m
b
r NEW S
e
1 500 000
d’
e
x
e 1 000 000
m
PO ST
p
m
a 500 000
i
r
e
s 0

1977 1978 1979 1980 1981

année

On constate immédiatement qu’il reste au Post bien du chemin à parcourir avant d’accéder à la première
place.

7. ECHELLE LOGARITHMIQUE

Lorsque la grandeur à représenter varie fortement (p.ex., plus d’un facteur 100), l’échelle habituelle
(linéaire) n’est pas bien adaptée à la représentation des petites quantités.
Exemple : les dimensions caractéristiques des objets suivants sont :

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 8


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

mouche : 5 mm = 0,005 m
homme : 2 m
terrain de football : 100 m
village : 1 km = 1000 m
pays : 1000 km = 1 000 000 m
planète terre : 12 000 km = 12 000 000 m

Représentation linéaire

d 12000
i
m 10000
e
n 8000
s
i
6000
o
n
4000
(k m )
2000

0
m h t v p t
o o e i a e
u m r l y r
c m r l s r
h e a a e
e i g
n e

Dans une représentation linéaire, où une longueur donnée (entre deux graduations successives)
correspond à l’addition d’une quantité fixée (par exemple 2000 km), les petites variations sont
indiscernables.
Ainsi, le graphique ci-dessus ne permet pas de distinguer la dimension d’une mouche de celle d’un terrain
de football.
Dans la représentation logarithmique, une distance fixe (entre deux graduations successives) correspond à
la multiplication par un nombre donné (par exemple 100).

Représentation logarithmique

100 000 000


d
i 1 000 000
m
e 10 000
n
s
100
i
o
n
1

(m ) 0 .0 1

m h t v p t
o o e i a e
u m r l y r
c m r l s r
h e a a e
e i g
n e

Cette représentation est mieux adaptée à la comparaison des valeurs relatives

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 9


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

CHAPITRE 3: CARACTERISATION DES DONNEES


L’histogramme et le polygone des effectifs donnent une vue globale et détaillée de la distribution des
individus dans un échantillon ou une population. Il est souvent très utile d’extraire de cette information
des grandeurs numériques qui en résument les caractéristiques essentielles.
Nous passerons tout d’abord en revue les grandeurs mesurant le centre de la distribution.
Ensuite, nous considérerons les différentes mesures de l’étalement ou dispersion de la distribution.

1. CENTRE D'UNE DISTRIBUTION

1.1. Le mode

Il correspond au sommet de la distribution: le mode est la valeur la plus fréquente. C’est la valeur la plus
« à la mode ».
On appelle distribution unimodale, une distribution présentant un seul mode.
f
r
é
q
u
e
n
c
e

Une distribution bimodale est une distribution présentant deux modes


f
r
é
q
u
e
n
c
e

X X
m odes m ode m ode
p rin c ip a l s e c o n d a ire

Une distribution multimodale est une distribution présentant plusieurs modes (2,3,…). Elle est souvent le
reflet d’une population composée de plusieurs sous-populations distinctes.
Par exemple, le polygone des fréquences ci-dessous, qui représente la distribution de la taille des
individus dans une population adulte, présente deux modes. Ceux-ci sont le reflet de la présence de deux
sous-populations : les femmes et les hommes, ces derniers étant généralement plus grands.
f
r
é
q
u
e
n
c
e
ta ille

m ode pour m ode pour


le s fe m m e s le s h o m m e s

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 10


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

1.2. La médiane

Elle correspond au milieu de la distribution: la médiane est la valeur pour laquelle il y a autant
d’individus à gauche qu’à droite dans l’échantillon.
Pour déterminer la médiane d’un échantillon ou d’une population :
(1) on classe les individus par ordre croissant
(2) on prend celui du milieu

Exemple :
 Soit un échantillon de 9 personnes dont le poids est :
45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63 kg

classés par ordre croissant :


45 – 49 – 52 – 56 – 62 – 63 – 68 – 74 – 89 kg

4 m é d ia n e 4

 Si le nombre d’individus est pair, on prend la moyenne entre les deux valeurs centrales :
45 – 49 – 52 – 55 – 56 – 62 – 63 – 68 – 74 – 89

5 5

56 + 62
m é d ia n e = = 59 kg
2
En règle générale, si n est le nombre d’individus dans l’échantillon, la médiane porte le numéro d’ordre
n 1
dans la suite des individus classés par ordre croissant.
2
Lorsqu’on obtient un numéro demi entier (ex : 24,5), on calcule la moyenne des deux valeurs adjacentes.

1.3. La moyenne

Elle correspond à une répartition « équitable » de la grandeur mesurée sur tous les individus: la moyenne
est la somme des grandeurs mesurées divisée par le nombre d’individus

Exemple :
 Dans le précédent échantillon de 9 personnes, le poids moyen vaut :
45+68+89+74+62+56+49+52+63
X = = 62 kg
9

 Dans le second échantillon de 10 personnes, le poids moyen vaut :


45+49+52+55+56+62+63+68+74+89
X = = 6 1 ,3 kg
10
Pour un échantillon de n individus, la moyenne est calculée par :
X  X  X   X
X 
1 2 3 n

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 11


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

En utilisant la lettre grecque  pour représenter une somme, on obtient la notation compacte suivante :
1
n
 X
X 

Pour des données groupées en classes, on peut calculer une valeur approximative de la moyenne en
supposant que tous les individus d’une classe se situent au centre de celle-ci.
Dans l'exemple précédent (9 personnes), la répartition est la suivante:
Classe Centre Nombre
45-55 50 3
55-65 60 3
65-75 70 2
75-85 80 0
85-95 90 1
3  50  3  60  2  70  0  80  1  90
X   62 , 2 kg
9
Si x est le centre de la classe et f le nombre d’individus dans celle-ci, la formule approchée s’écrit :
1
X 
n
 x. f

Dans l’exemple précédent, la formule approchée donne un poids moyen de 62,2 kg au lieu de 62 kg.
La formule approchée donnera des résultats d’autant meilleurs que :
 les classes seront étroites
 le nombre d’individus par classe sera grand.

1.4. Positions relatives des trois mesures du centre d'une distribution

a) Distribution unimodale et symétrique


Dans une distribution unimodale et symétrique, le mode, la médiane et la moyenne sont confondus.

F
r
é
q
u
e
n
c
e

M ode
=
M é d ia n e
=
M oyenne

b) Distribution asymétrique : Si la distribution est étalée à droite, on a généralement:


mode < médiane < moyenne

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 12


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

F
r
é
q
u
e
n
c
e

M M M
o é o
d d y
e i e
a n
n n
e e

Si la distribution est étalée à gauche, on a généralement: moyenne < médiane < mode

F
r
é
q
u
e
n
c
e

M M M
o é o
y d d
e i e
n a
n n
e e

1.5. Qualité comparée des trois mesures du centre d'une distribution

Exemple : Répartition des revenus dans une population.


M
M M
o
é o
d
d y
e
i e
a n
n n
P e e
o
u
r
c
e
n
t
a
g
e

rev en u

Le mode est la plus mauvaise mesure du centre, car la classe la mieux représentée n’est pas
nécessairement au centre de la distribution.
Si les valeurs extrêmes sont modifiées, la médiane ne change pas car elle n’est pas sensible aux valeurs
extrêmes. Par contre la moyenne change car elle tient compte de toutes les valeurs.
On préférera la médiane ou la moyenne selon que l’on veut une mesure sensible ou non aux valeurs
extrêmes.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 13


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

M
M
o
é
d
d
e M
i
o
a
y
n
e
P e
n
o n
u
e
r
c
e
n
t
a
g
e

rev en u

2. ETALEMENT D'UNE DISTRIBUTION

2.1. Dispersion d'une distribution

Supposez que l’on désire comparer les revenus des ouvriers d’une usine à ceux de l’ensemble de la
population de leur région. Les résultats sont résumés sur l’histogramme suivant :

o u v rie rs d e l’u s in e

e n s e m b le d e la p o p u la tio n

P
o
u
r
c
e
n
t
a
g
e

rev en u

Dans ce cas, les deux distributions ont le même centre mais elles sont manifestement différentes : elles
diffèrent par leur dispersion

MESURES DE LA DISPERSION
Exemple : Les poids de 35 garçons de 2e année sont repris dans le tableau et l’histogramme suivants :

classe (kg) individus : poids en kg


50-54 52
55-59 58
60-64 62 60 60 63 62
65-69 65 65 66 65
70-74 72 70 72 74 74 74 70
75-79 75 75 75 75 76 75 75 75 75 78
80-84 80 80 80
85-89 89 88 88 87

Pour caractériser l’étendue d’une distribution, les statisticiens ont introduit toute une série de grandeurs,
dont nous allons considérer les principales.

2.2. L'étendue

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 14


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

L’étendue est la différence entre la plus grande valeur et la plus petite valeur. Dans l’exemple précédent,
le calcul exact donne : 89-52 = 37 kg
Un calcul approché, prenant en compte le centre des classes, donnerait : 87-52 = 35 kg

10

n
o
m
b
5
r
e

52 57 62 67 72 77 82 87 p o id s ( k g )

é te n d u e

35 kg

2.3. L'étendue interquartile

Le premier quartile est l’individu ayant 25 % de l’échantillon en-dessous de lui et 75% de l’échantillon
au-dessus.
Le deuxième quartile est l’individu ayant 50 % de l’échantillon en-dessous de lui et 50 % de l’échantillon
au-dessus: c’est donc la médiane
Le troisième quartile est l’individu ayant 75 % de l’échantillon en-dessous de lui et 25 % de l’échantillon
au-dessus. L’étendue interquartile est la différence entre le troisième et le premier quartile
Dans notre exemple, on a : 1er quartile = 65 kg et 2me quartile = 76 kg

n° Poids (kg)
1 52
2 58
3 60
4 60
5 62
6 62
7 63
8 65
9 65 1er quartile EIQ : 76 –65 = 11 kg
10 65
11 66
12 70
13 70
14 72
15 72
16 74
17 74
18 74 médiane
19 75
20 75

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 15


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

21 75
22 75
23 75
24 75
25 75
26 75
27 76 3ème quartile
28 78
29 80
30 80
31 80
32 87
33 88
34 88
35 89

2.4. L'écart absolu moyen

On désire une quantité qui mesure l’écart moyen par rapport à la moyenne. On ne peut pas simplement
calculer la moyenne des écarts, car celle-ci est toujours nulle.
Exemple : Soient les 5 valeurs suivantes : 4-6-9-10-11
4  6  9  10  11 40
La moyenne vaut :   8
5 5

valeur écart à la moyenne


4 4  8 = 4
6 6  8 = 2
9 98=1
10 10  8 = 2
11 11  8 = 3
 4  2 1 2  3 0
moyenne des écarts :   0
5 5

Ce résultat est toujours valable, il résulte de la définition de la moyenne.


L’écart absolu moyen est la moyenne des écarts par rapport à la moyenne, toujours comptés positifs.
C’est donc la moyenne des valeurs absolues des écarts à la moyenne.
Dans le dernier exemple, il vaut :
4  2 1 2  3 12
  2 ,4
5 5

2.5. L'écart quadratique moyen (EQM)

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 16


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Pour des raisons mathématiques, il est préférable, pour éliminer les signes  , de calculer le carré des
écarts plutôt que leur valeur absolue
On calcule donc la moyenne des carrés des écarts, puis on prend la racine carrée :

 x  
1 2
EQM  X
n

Dans l’exemple ci-dessus, on a :


2 2 2 2 2
4  2 1  2  3 16  4  1  4  9 34
EQM     6 .8  2 .6
5 5 5

2.6. L'écart type

Toujours pour des raisons mathématiques, il est préférable, de diviser par n-1 plutôt que par n pour
estimer précisément la dispersion d’une population à partir d’un échantillon.
On obtient alors l’écart type, qui est préférable à l’écart quadratique moyen, et l’on retiendra seulement la
formule suivante :

 x  
1 2
  X
n 1

Dans l’exemple ci-dessus, on a :


2 2 2 2 2
4  2 1  2  3 34
    8 .5  2 .9
5 1 4

POURQUOI L’ECART TYPE EST-IL PREFERABLE A L’ECART QUADRATIQUE MOYEN ?

Si on se contentait de décrire l’échantillon, l’écart quadratique moyen serait une bonne mesure de la
dispersion. Mais, en général, nous sommes intéressés par la population sous-jacente, dont l’échantillon
n’est qu’une partie (supposée représentative). On veut donc estimer la moyenne et la dispersion de la
population à partir de l’échantillon.
Cas extrême : Supposons que nous ne disposions que d’un échantillon de 1 individu. On peut estimer le
poids moyen de la population : ce sera le poids de l’individu (ex : 65 kg). L’écart quadratique moyen
donnerait une dispersion nulle, ce qui suggère que toute la population pèse précisément 65 kg ! L’écart
type nous indique que nous ne pouvons pas estimer la dispersion dans la population si notre échantillon
ne comporte pas au moins 2 individus, (car on ne peut pas diviser par zéro).

CALCUL DE L’ECART TYPE POUR UN ECHANTILLON REPARTI EN CLASSES.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 17


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Soient : x les centres des classes


f les effectifs
X la moyenne de l’échantillon
n le nombre total d’individus
On peut calculer une valeur approchée de l’écart type en supposant que tous les individus d’une classe
sont au centre de celle-ci :

  
1 2
s  f x X
n 1

CHAPITRE 4: LA LOI NORMALE

1. LOI NORMALE OU DE GAUSS

Supposons que nous tirions des échantillons aléatoires d'une population dont la taille moyenne est de 170
cm, avec un écart type de 10 cm. Traçons l'histogramme de la taille, avec des classes de 5cm de large.
Examinons l’aspect de ces histogrammes.
Echantillon de 10 individus Echantillon de 100 individus
20
n n
o o
m m
b b
r 3 r 15
e e

d’ d’
i 2 i
n n 10
d d
i i
v v
i 1 i
5
d d
u u
s s

0
120 140 160 180 200 120 140 160 180 200
ta ille ( c m ) ta ille ( c m )

Echantillon de 1000 individus Echantillon de 10.000 individus

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 18


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

n n
o o
m m
150
b b
r r 1500
e e

d’ d’
i 100 i
n n 1000
d d
i i
v v
i 50 i
d
500
d
u u
s s

0 0
120 140 160 180 200 120 140 160 180 200
ta ille (c m ) ta ille (c m )

Echantillon de 100.000 individus. (ici, les classes sont de 2 cm)

n
o
m
b
r 6000
e

d’
i
n
4000
d
i
v
i 2000
d
u
s

0
120 140 160 180 200
ta ille (c m )

Au fur et à mesure que la taille de l'échantillon augmente (et que la taille des classes diminue),
l'histogramme devient de plus en plus régulier et se rapproche d'une courbe en cloche, appelée loi
normale.
Loi normale
n
o
m
b
r
e

d’
i
n
d
i
v
i
d
u
s

120 140 160 180 200


ta ille (c m )

La loi normale est la loi statistique la plus répandue et la plus utile. Elle représente beaucoup de
phénomènes aléatoires.
De plus, de nombreuses autres lois statistiques peuvent être approchées par la loi normale, tout
spécialement dans le cas des grands échantillons. Son expression mathématique est la suivante:

x  
2

n 
2
2
n(x)  e
2 

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 19


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

n (x )

 

  + x

  est la moyenne
  l’écart type
 n le nombre total d’individus dans l’échantillon
 n(x) le nombre d’individus pour lesquels la grandeur analysée a la valeur x.
Lorsque la distribution des individus dans une population obéit à la loi normale, on trouve :
A. 50 % des individus en-dessous de la moyenne  et 50 % au-dessus (la loi normale est symétrique)

50 %

x

B. 68 % des individus entre  et 

68 %

x
     + 

C. 95 % des individus entre -1,96 et +1,96, que nous arrondirons à l’intervalle 2, 

95 %

x
  2   + 2

D. 99,7 % des individus entre  et  (il y a donc très peu de chances qu’un individu s’écarte de
la moyenne de plus de 3).

9 9 ,7 %

x
  3   + 3

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 20


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

2. CALCUL DES PROBABILITES

Pour calculer les probabilités associées à la loi normale, on utilise généralement la loi normale réduite :
c’est une loi normale pour laquelle    et   .
La table suivante permet de déterminer la probabilité que la variable x s’écarte de la moyenne  de plus
de z0   vers le haut. Pour obtenir z0, on calcule l’écart par rapport à la moyenne :   x - , puis on

divise par l’écart type : z0 

2ème décimale de z0
Z0 0 1 2 3 4 5 6 7 8 9

0. .500 .496 .492 .488 .484 .480 .476 .472 .468 .464
0
0. .460 .456 .452 .448 .444 .440 .436 .433 .429 .425
1
0. .421 .417 .413 .409 .405 .401 .397 .394 .390 .386
2
0. .382 .378 .374 .371 .367 .363 .359 .356 .352 .348
3
0. .345 .341 .337 .334 .330 .326 .323 .319 .316 .312
4

0. .309 .305 .302 .298 .295 .291 .288 .284 .281 .278
5
0. .274 .271 .268 .264 .261 .258 .255 .251 .248 .245
6
0. .242 .239 .236 .233 .230 .227 .224 .221 .218 .215
7
0. .212 .209 .206 .203 .200 .198 .195 .192 .189 .187
8
0. .184 .181 .179 .176 .174 .171 .169 .166 .164 .161
9

1. .159 .156 .154 .152 .149 .147 .145 .142 .140 .138
0
1. .136 .133 .131 .129 .127 .125 .123 .121 .119 .117
1
1. .115 .113 .111 .109 .107 .106 .104 .102 .100 .099
2
1. .097 .095 .093 .092 .090 .089 .087 .085 .084 .082
3
1. .081 .079 .078 .076 .075 .074 .072 .071 .069 .068
4

1. .067 .066 .064 .063 .062 .061 .059 .058 .057 .056
5
1. .055 .054 .053 .052 .051 .049 .048 .047 .046 .046
6

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 21


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

1. .045 .044 .043 .042 .041 .040 .039 .038 .038 .037
7
1. .036 .035 .034 .034 .033 .032 .031 .031 .030 .029
8
1. .029 .028 .027 .027 .026 .026 .025 .024 .024 .023
9

2. .023 .022 .022 .021 .021 .020 .020 .019 .019 .018
0
2. .018 .017 .017 .017 .016 .016 .015 .015 .015 .014
1
2. .014 .014 .013 .013 .013 .012 .012 .012 .011 .011
2
2. .011 .010 .010 .010 .010 .009 .009 .009 .009 .008
3
2. .008 .008 .008 .008 .007 .007 .007 .007 .007 .006
4

2. .006 .006 .006 .006 .006 .005 .005 .005 .005 .005
5
2. .005 .005 .004 .004 .004 .004 .004 .004 .004 .004
6
2. .003 .003 .003 .003 .003 .003 .003 .003 .003 .003
7
2. .003 .002 .002 .002 .002 .002 .002 .002 .002 .002
8
2. .002 .002 .002 .002 .002 .002 .002 .001 .001 .001
9

Lorsque l’on doit déterminer une probabilité à partir de la loi normale, on essaie de se ramener à une
probabilité considérée dans la table. Quelques cas concrets sont illustrés ci-dessous.
1) x >  + z0

P ro b (ta b le )

x
  z 0   + z 0

2) x <  - z0
P ro b (ta b le )

x
  z 0   + z 0

3) x plus éloigné de  que z0

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 22


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

2  P ro b (ta b le )

x
  z 0   + z 0

4) x plus proche de  que z0

1 -2  P ro b (ta b le )

x
  z 0   + z 0

5) x    z0
1 -P ro b (ta b le )

x
  z 0   + z 0

3. FORME DE LA DISTRIBUTION D'ECHANTILLONNAGE

Supposons que nous analysions une population quelconque à partir d'un ensemble d'échantillons.
Pour chacun de ces échantillons, nous calculons une valeur moyenne X qui est une estimation de la
moyenne de la population . Bien entendu, les estimations X différeront généralement de la vraie
moyenne . Nous désirons savoir comment les différentes déterminations X vont se distribuer autour de
la vraie moyenne .

n (x ) n (x )
p o p u la tio n

x x
X é c h a n tillo n 1 X é c h a n tillo n 2

Traçons l'histogramme des valeurs moyennes, c'est-à-dire le nombre d'échantillons pour lesquels la valeur
moyenne X prend une certaine valeur (se situe dans une certaine classe).

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 23


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

n (x )
h is to g r a m m e d e s v a le u r s
m oyennes X

La figure suivante montre l’histogramme des valeurs moyennes X pour des échantillons de tailles
croissantes tirés des populations indiquées sur la première ligne.

Lorsque la taille de l'échantillon est suffisamment grande, (n  10) la distribution de la moyenne a une
forme approximativement normale. L'écart type sur la moyenne est:

 
 X 
n

Quelle que soit la population sous-jacente, si on utilise des échantillons suffisamment grands (au moins
10 à 20 individus), la précision de la valeur moyenne peut être calculée à partir de la loi normale.
Il y a 68 % (2/3) de chances que la vraie moyenne  soit dans l'intervalle compris entre X- et X+.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 24


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

x x x+ x

Il y a 95 % de chances que la vraie moyenne  soit dans l'intervalle compris entre X-2 et X+2.

x2 x x+2 x

4. INTERVALLES DE CONFIANCE

Nous avons vu que la moyenne X d'un échantillon aléatoire permet d'estimer la vraie moyenne  de la
population.
Nous voudrions estimer également la précision de cette moyenne, c'est-à-dire donner une marge d'erreur
ou un intervalle de confiance.
Nous pouvons utiliser les tables de la loi normale pour estimer ces intervalles de confiance.
En général nous adopterons l'intervalle de confiance à 95%, soit à 2( X ).
Nous pourrons donc écrire, soit:

  X  2 X  
Soit, plus explicitement:
Il y a 95 chances sur 100 que  se situe entre

X  2 X   et  
X  2 X

Si nous tirons une série d’échantillons aléatoires de la population, dans 19 cas sur 20 (en moyenne),  se
trouvera dans l’intervalle de confiance X  ( X ).

5. COMPARAISON DE DEUX ECHANTILLONS INDEPENDANTS

Des échantillons sont indépendants lorsqu’une modification dans l’un d’eux n’a pas d’influence sur les
autres.
Par exemple, un échantillon de filles et un échantillon de garçons sélectionnés pour déterminer le poids
moyen des filles et celui des garçons sont indépendants.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 25


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans un sondage politique
ne forment pas deux échantillons indépendants car si une personne de plus déclare voter pour A, il y a un
électeur potentiel en moins pour B (les résultats de A et B s’influencent).
La différence moyenne est simplement:

X D  X1  X 2

Son écart type est donné par:

  X 
2 2
 D  1 X  2

(formule approchée, mais suffisamment précise)


Pour la taille des filles et des garçons:
X D  182 , 9  167 , 9  15 cm

   1,13  1, 35 cm
2 2
D
0 , 74

L'intervalle de confiance à 95 % est de:


2  1,35 = 2,7 cm
XD = 15,0  2,7 cm
Si nous désirons maintenant répondre à la question suivante: les garçons sont-ils plus grands, en
moyenne, que les filles?
 différence moyenne de taille: XD = 15,0 cm
 écart type de cette différence: D = 1,35 cm
 nombre d'écarts types au-dessus de 0 cm (0 cm  pas de différence de taille)
15 , 0
z0   11 ,1111
1, 35

Dans une distribution normale, la probabilité d'avoir une valeur qui s'écarte de la moyenne de plus de 11
 est inférieure à 2.10-28 et donc complètement négligeable.
Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la différence de taille soit due au
hasard.
Sur base de nos échantillons, nous sommes donc pratiquement certains que les garçons sont, en moyenne,
plus grands que les filles.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 26


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

CHAPITRE 5: CORRELATION

1. CORRELATION ENTRE DEUX VARIABLES

Jusqu'à présent, nous nous sommes intéressés à des questions du type:


 quelle est la taille moyenne des garçons ivoiriens âgés d'une vingtaine d'années ?
 quelle est la probabilité pour qu'un médicament soit efficace ?
 quel pourcentage de voix un parti politique recueillera-t-il aux prochaines élections ?
 quelle fraction des barres métalliques produites par une usine sera-t-elle rejetée par le client ?
 le poids moyen des pains produits dans une boulangerie est-il supérieur à 800 grammes ?
Dans toutes ces questions, nous étudions le comportement statistique d'une seule variable: taille, efficacité
du médicament, pourcentage de voix, longueur des barres, poids des pains.
Il existe cependant toute une gamme de problèmes statistiques où l'on s'intéresse à la relation entre
plusieurs variables.
Exemples:
 les individus les plus grands sont-ils les plus lourds ?
 le revenu d'une famille a-t-il une influence sur les résultats scolaires des enfants ?
 y a-t-il une relation entre le tabagisme et les cancers du poumon ?
 le rendement en céréales dépend-il de la quantité d'engrais utilisée ?
 la productivité d'une entreprise est-elle liée au salaire des ouvriers ou employés ?
Dans ces questions, nous désirons savoir si le comportement d'une variable est influencé par la valeur
d'une autre variable:
taille poids revenu résultats
tabagisme cancer rendement engrais

La relation peut être causale ou non


Pour étudier les relations ou corrélations entre deux variables statistiques, on peut les porter sur un
graphique.
Exemple: relation entre la taille et le poids des individus pour chaque individu de l'échantillon, on porte
sur un graphique:
 sa taille en abscisse (l'abscisse d'un point correspond à sa projection sur l'axe horizontal)
 son poids en ordonnée (l'ordonnée d'un point correspond à sa projection sur l'axe vertical)
Chaque individu est donc, dans ce graphique, représenté par un point (point représentatif).
Soit un individu mesurant 172 cm et pesant 66 kg:

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 27


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

70

p
66
o
i
d 60 p o in t r e p r é s e n ta ti f
s
(k g )

50
150 160 170 180
172
t a ill e ( c m )

Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans l'échantillon.

.
p .
o 80 .
. . .
i
. . . .. . .
d 70 .
s . . .. .
(k g )
. . . . .. .
60
. . . .

50
150 160 170 180 190 200
ta ille ( c m )
R e la tio n e n tr e le p o id s e t la ta ille d a n s u n é c h a n tillo n d e 3 0 in d iv id u s .

On peut (par la pensée ou réellement) tracer une droite qui passe au mieux par ces points (au milieu du
"nuage" de points).
Si cette droite "monte", on dira qu'il y a corrélation positive entre les deux variables.
Si elle "descend", c'est une corrélation négative.
Si elle est "horizontale", ou si on ne peut pas décider, c'est qu'il y a absence de corrélation.
Corrélation positive:
y
.
.
.
. . . .
.. . . . .
. .
.. .. .
.. . . .. . .
. .

Corrélation négative:
y
. .
.. . . .. .
.
. .. .. .
.
.
.. . . . .
. . .
.
.
.

Absence de corrélation:

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 28


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

y y

. . . .
. . . .
. . .. . .
. . .. . . . . . . . . .
. . . . . . .. . . .
. .. . . . . .. . . . .
. . .

x x

La qualité de la corrélation entre deux variables peut se mesure par la dispersion des points autour de la
relation moyenne.
Corrélation parfaite:

y
.
..
. .
.
.
x

Bonne corrélation (corrélation forte):

. ..
.
. .
.
. .
. .
x

Mauvaise corrélation (corrélation faible):

y
.
. .
.
. .
.
.
.
. .
x

Exemple:
1. Corrélation entre le poids et la taille pour les garçons de 2ème candidature communication (1998).

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 29


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

100

. . .
.
p
o 80 . .. .
.. . . .. ... ..
i .
. ..
d
. .. .
s .. . . .
60 .
(k g )
.

40
140 160 180 200
ta ille (c m )

On constate une augmentation du poids avec la taille (corrélation positive): les garçons les plus
grands sont généralement les plus lourds.
Mais la dispersion des points est assez grande: la corrélation est assez faible.
2. Corrélation entre le poids et la taille pour les filles de 2ème année.

p
o 80
i
. . .
d . . .
s . .. .. .
60 . . . . .
(k g ) . . . .... . .. . .
.. .. . ..
....... . . .. .
. .
.
40
140 160 180 200
ta ille (c m )

On ne constate pas de relation entre le poids et la taille (absence de corrélation): le poids des filles
est indépendant de leur taille.
(Les filles les plus grandes sont donc les plus minces)

2. METHODE DES MOINDRES CARRES

Si on se contente de tracer à main levée la droite qui "passe au mieux" par les points représentatifs,
différentes personnes vont obtenir des résultats différents.
Il existe une méthode mathématique pour déterminer la "meilleure" droite: c'est la méthode des moindres
carrés.
Elle consiste, dans sa version la plus simple, à trouver la droite qui minimise les carrés des écarts des
points représentatifs à cette droite.

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 30


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

Y
d5

d3
d4
d1
d2

Trouver la droite telle que la somme des carrés des écarts d1, d2,… soit minimale:


2
d  minimum

Soit
Y  aX  b l'équation de la droite cherchée (droite de régression)
Les coefficients a et b peuvent être calculés à partir des formules suivantes:
Pente:

a 
X 1
    X . Y  Y      X  X . Y
 X . Y1  Y  X 2 2 n n Y 
X  X   X  X     X  X 
2 2 2
1 2 n

ou:

a 
 ( X  X ).( Y  Y )


2
(X  X )

Ordonnée à l'origine:

b  Y  a.X

Rappels:
1
X 
n
 X

1
Y 
n
 Y

3. COEFFICIENT DE CORRELATION

Le signe de la pente a donne le sens de corrélation, mais pas sa qualité.


a>0 corrélation positive
a<0 corrélation négative
a=0 pas de corrélation
La qualité de la corrélation peut être mesurée par un coefficient de corrélation r

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 31


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

r 
 ( X  X ).( Y  Y )
2
 
2
(X  X )  (Y  Y )

Le coefficient de corrélation est compris entre 1 et +1.


Plus il s'éloigne de zéro, meilleure est la corrélation
r = +1 corrélation positive parfaite
r = 1 corrélation négative parfaite
r=0 absence totale de corrélation
Quelques exemples de corrélation (le coefficient de corrélation r est indiqué dans chaque cas)

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 32


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

PARTIE II :

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 33


Institut National de Formation Professionnelle Agricole (INFPA) Ecole Régionale d'Agriculture du SUD (ERA SUD)

COURS DE BIOSTATISTIQUE ET PLANS D’EXPERIENCE S M. Gédéon DOUA 58 70 50 66 34