G
Geessttiioonn ddeess ddppllaacceem
meennttss
EEvvaalluuaattiioonnss ddiim
mppaacctt eett tteessttss ddee m
maattrriieell
Patrick Olivero
9000
8500
500
8000
450
7500
400
7000
6500350
Taille de l'chantillon
6000300
5500250
5000
200
4500
150
Version 2.1
4000
100
3500
300050
2500 0
10%
15%
20%
25%
30%
35%
40%
45%
Avril 2001
50%
2000
1500
1000
500
0
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
30,0%
35,0%
40,0%
45,0%
50,0%
Remerciements
M Jean Peybernard, chercheur au LCPC et professeur de statistique l'ENTPE,
M. Nour-Eddin El Faouzi, statisticien, chercheur au laboratoire LICIT (INRETS / ENTPE),
ont bien voulu effectuer une lecture critique d'une premire bauche de ce document.
Leurs conseils ont permis de nombreuses clarifications et simplifications, et nous les
remercions vivement pour cette contribution.
Sommaire
1
1.3
2
Gnralits............................................................................................................................................. 8
Aperu sur la mthode des quotas ......................................................................................................... 8
Exemple................................................................................................................................................. 9
ENJEUX ............................................................................................................................................... 11
DIFFICULTES ....................................................................................................................................... 14
CHAMP DE LETUDE ............................................................................................................................ 14
QUELQUES DEFINITIONS PREALABLES ................................................................................................. 15
Variable discrte, variable continue ............................................................................................. 15
Echantillonnage indpendant, chantillonnage exhaustif............................................................. 15
Niveau de confiance, niveau de risque .......................................................................................... 16
3
TAILLE DE LECHANTILLON DANS LE CAS DE LA MESURE DE LA MOYENNE DUNE
VARIABLE CONTINUE ................................................................................................................................... 17
3.1
BASE THEORIQUE : LOI DE LA MOYENNE DUN GROS ECHANTILLON ................................................... 17
3.2
METHODE ........................................................................................................................................... 18
3.2.1
Choix dun niveau de risque accept............................................................................................. 18
3.2.2
Choix dune prcision relative ...................................................................................................... 18
3.2.3
Dtermination dun ordre de grandeur du rapport c = s /x et calcul de n.................................. 19
3.3
EXEMPLE ............................................................................................................................................ 20
4
4.3
APPROXIMATIONS DE LA LOI BINOMIALE ............................................................................................ 40
4.3.1
Position du problme .................................................................................................................... 40
4.3.2
Approximation par la loi normale................................................................................................. 40
REFERENCES.................................................................................................................................................... 42
ANNEXE : TABLE U(1-
/2) EN FONCTION DE ....................................................................................... 43
Avant-propos
Depuis plusieurs annes, plusieurs travaux mthodologiques ont eu pour ambition de fournir
aux techniciens des outils leur permettant de raliser, ou de piloter, les tudes d'valuation
des matriels et systmes d'exploitation.
Dans le domaine urbain et priurbain, ces travaux ont souvent t raliss l'initiative du
CERTU, en particulier au sein d'un groupe de travail sur l'valuation des oprations
1
d'exploitation dites "SDER de niveau 1".
Il est apparu ce groupe de travail qu'un minimum de connaissances statistiques tait
ncessaire aux techniciens pour raliser les plans d'exprience et interprter les rsultats.
Pour actualiser et renforcer cette comptence, un stage de formation Mthodes statistiques
pour l'exploitation de la route, assur par M. Jean Peybernard (LCPC), a t organis, et une
2
premire session a eu lieu en 2000.
En complment, le CERTU a demand la ZELT de rdiger une note technique sur le calcul
de la taille des chantillons, cueil sur lequel se heurtent parfois les exprimentateurs
lorsqu'ils laborent les plans d'exprience.
Le problme a t trait ici d'une manire pragmatique, c'est--dire en fournissant des
mthodes ou outils (abaques) permettant de traiter la plupart des cas courants.
En particulier, nous n'avons pas dvelopp le cas des petits chantillons et nous nous
sommes placs dlibrment dans l'hypothse d'une taille d'chantillon suprieure 30.
Nous avons conserv un dcoupage du problme en 2 sous-ensembles : mesure de la
moyenne d'une variable continue d'une part ; mesure d'une frquence (proportion) d'autre
part. Nous n'ignorons pas que, moyennant certaines restrictions d'emploi, ces 2 situations
peuvent tre traites de manire analogue par emploi de la loi normale ; toutefois, il nous a
sembl prfrable de fournir, pour les proportions, des outils dvelopps partir de la loi
binomiale dont les conditions d'application sont trs larges et non brides par la condition
usuelle np>20.
Nous avons privilgi ici l'utilisation d'abaques. Les outils informatiques qui ont permis leur
tablissement ont t fournis au CERTU.
1
2
11 G
meess ddee llcchhaannttiilllloonnnnaaggee
Gnnrraalliittss ssuurr lleess pprroobbllm
La ralisation dun test de matriel, ou dune valuation dimpact a gnralement pour
objectif de fournir des informations sur une variable (ou plusieurs) caractristique du
3
phnomne tudi ; par exemple :
etc.
La nature des phnomnes qui nous occupent fait quil est impossible (indpendamment
mme de toutes considrations logistiques) de procder une tude exhaustive de la
population concerne ; on procde donc par chantillonnage.
Plus prcisment : lexprimentateur choisit une priode de temps, ou un nombre dindividus,
qui sera le support des mesures ; le nombre dindividus observs constitue lchantillon ; il
doit tre tel (autant que faire se peut) que les caractristiques de la variable tudie, tablies
sur l' chantillon, reprsentent galement les caractristiques de la population relle.
Or, la satisfaction de cet espoir nest pas certaine ; elle dpend de plusieurs facteurs,
parmi lesquels :
3
4
La reprsentativit de lchantillon.
La taille de lchantillon.
Nous nous limitons ici, et ce sera le cas dans tout ce document, des exemples qui concernent la gestion des dplacements.
DAI : Dtection Automatique dIncidents.
La prcision du rsultat peut parfois tre entache par des imprcisions (voire des
erreurs de manipulation) rsultant non pas de la mesure mais du traitement qui est
fait de cette mesure. Par exemple : supposons que lon tudie la rpartition des
temps de parcours, sur un trajet donn AB en milieu urbain, et que les donnes
recueillies soient des dates de passage en A et en B ; supposons en outre que lon
dispose dun logiciel capable dapparier les dates de passage dun vhicule donn
et den dduire un temps de parcours6. Ce logiciel doit tre capable dliminer les
temps de parcours anormaux qui sont ceux de vhicules ayant effectu un arrt
de longue dure sur le trajet AB, arrt dont on peut supposer quil nest pas une
consquence des conditions de trafic, mais relve du libre choix du conducteur ou
de circonstances fortuites (sarrter pour faire un achat ; sarrter pour cause de
panne ou dincident ; etc.). Le traitement des donnes doit donc tre prcd par
une phase de validation et de dtection des valeurs aberrantes.
Des analyses de ce type ont t effectues par la ZELT dans les travaux du programme europen CENTAUR.
Cf. rfrence [6].
6
Cet exemple nest pas fortuit : cette mthode et ces outils sont ceux utiliss par la ZELT, mthode dite ZELT-PSION .
On sintresse au taux de violation dun feu rouge mais on neffectue les mesures
que pendant des priodes de trafic dense : chantillon non reprsentatif car la
probabilit de violation du rouge est certainement une fonction dcroissante du taux
doccupation (hors saturation).
Etc.
Dans les exemples cits ci-dessus, des rflexions qui relvent du simple bon sens
permettent dviter les cueils.
Il nen est pas de mme pour les expriences utilisant des enqutes (interviews ou
questionnaires) : le problme est plus complexe, et nous allons nous y attarder quelque peu.
Lessentiel de ce document est consacr la dtermination de la taille de lchantillon. Ce chapitre relatif la reprsentativit
de lchantillon est en quelque sorte un dveloppement annexe succinct.
8
Gnralits
Les enqutes dopinion sont frquemment utilises dans des problmes relatifs la gestion
des dplacements, pour apprcier lacceptabilit dun systme par les usagers.
Par exemple :
Etc.
A notre sens, lexprimentateur doit clairement choisir entre lun ou lautre des deux objectifs
suivants :
Lobjectif est davoir un avis dexpert
Dans ce cas lchantillon sera constitu au sein du sous-ensemble de la population le plus
directement concern par le problme tudi.
Exemple : on veut tudier lopinion de la population sur la qualit des amnagements
destins aux vlos ; si lchantillon est constitu par une partie quelconque de la population,
le taux de cyclistes pratiquants sera faible ; les rponses assises sur la pratique relle du
vlo seront minoritaires ; elles seront noyes dans la masse des rponses moins
pertinentes manant de cyclistes occasionnels, voire de non-cyclistes. Pour obtenir des
rponses dexpert , il faut constituer lchantillon dans une population particulire,
interviewe in situ (cest--dire sur un vlo), ou constitue partir dun fichier dassociation
de cyclistes. Au sein de cette sous-population reprsentative, on pourra alors admettre que
lon effectue un sondage alatoire, cest--dire que tous les individus sont reprsentatifs.
Lobjectif est davoir une opinion de lensemble de la population
Dans ce cas la prcaution prendre est de sassurer que lchantillon possde des
caractristiques reprsentatives de la population totale ou, plus prcisment, que les
variables que lon contrle au sein de lchantillon sont celles qui sont susceptibles davoir
une incidence sur les rponses fournies. En toute rigueur, ce problme est impossible
rsoudre. En effet, ce nest que lorsque lenqute sera effectue, que lon pourra analyser
lensemble des caractristiques et dterminer celles qui sont pertinentes (cest--dire qui
sont explicatives des rponses) et quil aurait fallu contrler. Fort heureusement, on peut
souvent faire des hypothses crdibles sur la nature des variables contrler, et construire
lchantillon en utilisant la mthode dite des quotas , brivement dcrite ci-dessous.
1.2.2.2
1.2.2.3
Exemple
Cet exemple est fictif. Ne pas sattacher la vraisemblance des valeurs numriques, mais
aux principes de la mthode.
On souhaite effectuer une enqute au 1/100 sur lutilisation des transports en commun pour
les dplacements domicile-travail, auprs de la population active de plus de 15 ans dune
grande agglomration. On suppose que le lieu dhabitat et le lieu de travail sont des
variables de contrle ; on a un doute sur le caractre explicatif de lge et du sexe.
On dcoupe le primtre urbain en n zones ; supposons quil y ait 3 zones : centre-ville,
priphrie du centre, banlieue, que nous dsignons dans ce qui suit par A, B et C.
La taille de lagglomration est suffisamment importante pour que lon puisse disposer des
donnes suivantes (ou les estimer de manire fiable) :
Rpartition des types de trajets effectus par les actifs de plus de 15 ans pour leurs
dplacements domicile vers travail
AA
AB
AC
BA
BB
BC
CA
CB
CC
Total
20%
10%
5%
10%
5%
5%
30%
10%
5%
100%
Les donnes de lINSEE, et autres banques de donnes fournissent les donnes suivantes :
Nombre dactifs de plus de 15 ans : 350 000 actifs, dont 60% dhommes et 40% de femmes.
Rpartition par ge
De 15 24 ans : 15%.
De 25 34 ans : 40%.
de 35 59 ans : 40%.
Le sondage tant effectu au 1/100, on veut disposer dun chantillon de 3500 personnes.
Compte tenu des donnes qui prcdent on demandera lorganisme charg de raliser les
enqutes de constituer lchantillon au plus proche de ce qui suit :
Rpartition par ge :
De 15 24 ans : 525.
De 25 34 ans : 1400.
de 35 59 ans : 1400.
AA
AB
AC
BA
BB
BC
CA
CB
CC
Total
700
350
175
350
175
175
1050
350
175
3500
On conoit aisment que la constitution dun chantillon rpondant ces critres soit affaire
de spcialistes.
10
frquences exprimentales
15,0%
10,0%
5,0%
0,0%
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
Taille de l'chantillon n
Ou "justesse de la mesure".
11
17,5%
15,0%
Prcision %
12,5%
10,0%
7,5%
5,0%
2,5%
0,0%
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
Taille de l'chantillon n
Supposons que lon accepte de se limiter une prcision de 5%. La taille minimale de
lchantillon correspond l'effectif au del duquel la prcision (au sens o nous lavons
dfinie plus haut) est stabilise au dessous de 5%.
Pour prciser cette valeur, nous nous intressons ci-dessous l'intervalle [0, 1000].
Figure 3 : taille d'chantillon ncessaire pour une prcision de 5% (exemple)
30,0%
25,0%
Prcision %
20,0%
15,0%
10,0%
5,0%
0,0%
0
50
100
150
200
250
300
350
400
450
500
550
600
650
700
750
800
850
900
950
1000
Taille de l'chantillon n
12
On voit quil est ncessire que l'chantillon contienne 375 individus pour atteindre la
prcision souhaite.
Si par contre on voulait atteindre une prcision de 2,5%, il faudrait un chantillon d'environ
2400 individus, comme le montre le graphe ci-dessous :
Figure 4: taille d'chantillon ncessaire pour une prcision de 2,5 % (exemple)
10,0%
Prcision %
7,5%
5,0%
2,5%
0,0%
0
250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
3500
3750
4000
4250
4500
4750
5000
Taille de l'chantillon n
Les valeurs numriques prsentes plus haut ne sont pas extrapolables dautres
populations. Par contre les tendances sont gnralisables (elles correspondent dailleurs au
sentiment intuitif de tout un chacun) :
Une taille dchantillon trop faible ne permet pas de conclure avec une prcision
raisonnable.
13
2.2 Difficults
Les dveloppements qui prcdent ont t possibles car, sagissant dune population
parfaitement dcrite, on connaissait a priori le rsultat, cest dire la frquence relle.
Bien entendu, ce nest jamais le cas puisque le but de lexprience est, prcisment, de
dterminer cette frquence.
Dans la pratique lexprimentateur peut fixer ses propres contraintes en matire de prcision
attendue mais ne peut pas choisir au hasard la taille de lchantillon qui lui permettra de
satisfaire ces contraintes. Il souhaite donc pouvoir prdterminer la taille de
lchantillon.
Prcisons demble que ce problme est, en toute rigueur, impossible rsoudre. En effet
sa rsolution suppose connues des valeurs qui sont lenjeu de lexprience. Dans tous les
cas, on est amen faire des hypothses sur lordre de grandeur des rsultats que lon va
obtenir.
En dautres termes, on nest jamais assur a priori davoir correctement dimensionn un
chantillon. Ce nest qua posteriori que lon pourra vrifier l'adquation des hypothses des
hypothses sur les ordres de grandeur.
Mais cette vidence ne doit pas tre dcourageante : dune part car il est souvent possible
de faire des hypothses crdibles ; dautre part car un mauvais dimensionnement de
lchantillon ne rend pas forcment caduque lexprience : il modifie, dans un sens ou dans
lautre, la qualit de l'estimation. Si la prcision est meilleure que celle espre, lchantillon
aura t dimensionn trop largement et le seul regret que pourra avoir lexprimentateur est
davoir t trop luxueux . Dans le cas contraire, la taille de lchantillon aura t sousestime et il est de la responsabilit de lexprimentateur de dcider si la qualit de
l'estimation reste acceptable.
La premire situation sera illustre par lexemple dune exprience destine mesurer des
temps de parcours de vhicules.
La seconde par lexemple dune exprience destine mesurer le taux de dtection dun
capteur.
14
Une variable discrte est une variable dont le domaine de dfinition comprend un
nombre fini de valeurs, ou un nombre infini de valeurs dnombrables. Exemples : la
variable caractrisant loccurrence ou la non occurrence de la dtection par un
capteur est une variable discrte pouvant prendre deux valeurs ; la variable
caractrisant le nombre dincidents rels dtects par un systme de DAI entre
loccurrence de deux fausses dtections successives est une variable discrte
pouvant prendre une infinit de valeurs dnombrables (1, 2, n) ; etc.
Une variable continue est une variable dont le domaine de dfinition est un
intervalle continu. Exemple : la vitesse des vhicules, les temps de parcours, etc.
Dans la pratique, la frontire entre variable discrte et variable continue est permable. Par
exemple : le temps de parcours est une variable continue. Mais si on mesure ces temps
avec une prcision de la seconde, on peut aussi considrer que cest une variable discrte
dont lintervalle de dfinition est infini et dnombrable (le nombre de secondes).
Dans tout ce qui suit, nous nenvisageons que des tirages indpendants. On admettra en
effet, pour reprendre les deux exemples cits plus haut :
1. Que le fait pour un vhicule dtre ou de ntre pas dtect ne modifie pas la probabilit
quont les autres vhicules dtre ou de ntre pas dtects.
2. Que le fait pour un vhicule davoir mis un temps ti pour aller de A B, ne modifie pas la
loi de distribution des probabilits de t pour les autres vhicules.
15
16
s=s'
n
n1
x u 1 / 2 s n
Dans cette expression u(1-/2) est la valeur de la variable centre rduite correspondant au
seuil de probabilit (1-/2). Cette valeur est disponible dans les tables et tableurs usuels.
On trouvera en annexe 1 une table donnant u(1-/2) en fonction de , pour variant entre 0,01
et 0,1.
10
Dans la pratique on admet que la taille de lchantillon doit tre suprieure 30. Cest lhypothse que nous faisons dans
tout ce chapitre.
11
Un estimateur dune caractristique quelconque dune population est dit sans biais sil est toujours centr sur la valeur
relle de cette caractristique dans la population. Cest le cas pour la moyenne arithmtique de lchantillon. Ce nest pas le cas
pour lcart-type : lcart-type dun chantillon est un estimateur biais de lcart-type de la population relle.
17
3.2 Mthode
3.2.1 Choix dun niveau de risque accept
Lexprimentateur doit choisir pralablement un niveau de risque accept .
reprsente la probabilit de conclure tort que la moyenne relle de la population est
comprise dans lintervalle de confiance calcul partir de lchantillon (dans la pratique on
choisit souvent = 5%, ce qui signifie quen moyenne on se trompe une fois sur 20).
On admettra dans tout ce qui suit que le risque est partag, cest--dire que la probabilit
d'tre infrieur la borne infrieure de l'intervalle de confiance est gal au risque d'tre
suprieur la borne suprieure de cet intervalle, soit : /2.
I=
u 1 / 2 s n
x
x 10%
x
n= cu(1 / 2)
I
18
n= cu(1 / 2)
I
19
3.3 Exemple
On veut raliser une exprience destine mesurer des temps de parcours de vhicules
entre 16h et 19h. Pour dterminer lordre de grandeur de c, on effectue une mesure de
calibrage en mesurant 30 temps de parcours sur le site, entre 17h et 18h. Ces 30 mesures
fournissent les temps suivants (en secondes) :
1110
992
884
999
770
993
1109
952
869
1057
975
947
1036
960
1026
1063
1180
746
735
783
1033
963
988
771
722
791
1278
911
1025
971
La moyenne de cet chantillon est gale : 955 secondes et son cart-type est gal 136
secondes.
Une valeur approche du coefficient c est donc : 138 / 955 = 0,145. On utilise cette valeur
pour prdimensionner lchantillon, avec les choix suivants : 1 - = 0,99 et I = 5%.
Avec :
C = 0,145
I = 0,05
Taille
5%
56
4%
87
3%
156
2%
350
Une taille n = 100 semble un compromis raisonnable. L'exprience a t conduite avec cette
taille d'chantillon et a conduit aux rsultats suivants :
Moyenne = 994 s.
I=
u 1 / 2 s n
x
avec :
u(1-/2) = u0,05 = 2,58
s = 149 s
x = 994 s
n = 100
soit : I% = 3,9 %
soit : 956 s < m < 1032 s.
21
14
observe
(p2 p1) 2
, ou f est la frquence mesure. Il sagit donc de la demi-amplitude
f
13
Plus exactement : du taux de non-dtection, complment 1 du taux de dtection. Le principe de lexprience est, par
exemple, le suivant : un observateur relve et date tous les passages de vhicules sur le capteur ; on compare ces relevs avec
les donnes fournies par le capteur. Le taux de non-dtection est le pourcentage de vhicules ayant effectivement franchi le
capteur mais qui nont pas t dtects. On ne sintresse pas ici aux fausses dtections qui constituent un problme diffrent.
14
Le lecteur pourra transposer sans peine lexemple tous types de phnomnes binaires. Il rservera la notation p la
probabilit de ltat dont la probabilit doccurrence est la plus faible.
22
15
Moyenne = p
Ecart type =
p(1 p )
n
On trouve, dans la littrature, des tables et abaques souvent limites des tailles
d'chantillon infrieures 100 (par exemple dans [1]), plus rarement utilisables pour des
chantillons de taille suprieure (c'est le cas dans [4]).
Exemple :
15
On notera que le caractre discret de la loi binomiale implique que la valeur ne correspond gnralement pas exactement
la valeur centrale de lintervalle de confiance.
16
Cette hypothse est le pendant de lhypothse faite sur c dans le cas dune variable continue.
23
4.2.2.1
Justification thorique
Sur un chantillon de taille n, la probabilit que la frquence exprimentale soit gale une
valeur p, cest--dire que le nombre de vhicules non-dtects soit k = np, est gale :
nk
Pr (k)=C p (1p)
k
C p (1p1)
n
j= k
n j
C p (1p2)
k
j= 0
= / 2
= / 2
Le principe du calcul ralis par la ZELT pour l'tablissement des abaques consiste, pour
une frquence cible donne k/n, et pour 1- =0,95, tablir les courbes n=f(I%). Ce calcul a
t rendu possible par le dveloppement d'un programme spcifique sous environnement
20
DELPHI 4.
4.2.2.2
Abaques
On trouvera ci-aprs un jeu d'abaques tablis pour des valeurs de la frquence-cible variant
de 5% 50% (inclus) par pas de 5% (soit 10 abaques numrots de 1 10).
Un abaque supplmentaire (numrot 11) prcise le domaine des chantillons de taille
moyenne (taille infrieure 500).
On rappelle que ces abaques sont tablis pour 1- =0,95.
17
Dans la limite de la prcision de lecture sur l'abaque. Lecture assez difficile, car cet abaque n'a pas t construit pour fournir
n mais pour fournir un intervalle de confiance.
18
Elle peut l'tre dans les problmes dont nous traitons ici (exemple : taux de dtection d'un capteur) car la population dont est
extrait l'chantillon est quasiment infinie.
19
20
24
25
9000
8500
8000
Abaque n1
Frquence-cible : 5%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
27
9000
8500
8000
Abaque n2
Frquence-cible : 10%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
28
9000
8500
8000
Abaque n3
Frquence-cible : 15%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
29
9000
8500
8000
Abaque n4
Frquence-cible : 20%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
30
9000
8500
8000
Abaque n5
Frquence-cible : 25%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
31
9000
8500
8000
Abaque n6
Frquence-cible : 30%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
32
9000
8500
8000
Abaque n7
Frquence-cible : 35%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
33
9000
8500
8000
Abaque n8
Frquence-cible : 40%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
34
9000
8500
8000
Abaque n9
Frquence-cible : 45%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
35
9000
8500
8000
Abaque n10
Frquence-cible : 50%
7500
7000
Taille de l'chantillon
6500
Confiance = 95 %
6000
5500
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
36
Taille de l'chantillon
350
Cible 5%
Cible 10%
Cible 15%
Cible 20%
Cible 25%
Cible 30%
Cible 35%
Cible 40%
Cible 45%
Cible 50%
300
250
200
150
100
50
0
10%
15%
20%
25%
30%
35%
40%
45%
50%
Prcision (%)
37
4.2.2.3
Exemples
Exemple 1 :
Nous reprenons l'exemple dj utilis page 23.
21
38
Exemple n6 :
Exemple trait, par une autre mthode, dans la rfrence [3], chap. IV, 4.5.4 :
"Pour estimer une proportion de l'ordre de 0,2, par un intervalle bilatral symtrique 0,95
d'amplitude +/- 0,03 il faut un chantillon de taille au moins gale 683".
Calcul par abaque ZELT : l'amplitude vise correspond une prcision relative I% = 15%.
L'abaque n4 fournit, pour cette valeur de I%, n = 700.
Exemple n7 :
Adaptation d' exemples issus de [3], chap. IV, 4.5.4 :
39
On admet que la loi binomiale peut tre assimile une loi normale lorsque la taille
de lchantillon est grande, et la frquence p pas trop petite. En pratique
lapproximation est utilisable lorsque le produit np est suprieur 20.
On admet que la loi binomiale peut tre assimile une loi de Poisson lorsque la
taille de lchantillon est grande, et la frquence p faible. En pratique lapproximation
est utilisable lorsque le produit np est gal quelques units ou, plus gnralement,
quand p <0,1.
Nous ne dveloppons pas ici en dtail la thorie de ces approximations. En effet, les
abaques dcrits plus haut permettent de se librer des contraintes de calcul, et il ne nous
semble pas, dans ces conditions, quil y ait un avantage quelconque substituer la loi
binomiale une approximation.
Nous nous contentons dvoquer lapproximation par la loi normale qui est d'un emploi trs
frquent 22. Nous rappelons les conditions d'emploi : produit np > 20.
22
23
(u 1 2 ) 2 (1 p )
I 2p
On trouvera des dveloppements thoriques plus complets dans les rfrences bibliographiques [3], [4] et [7].
Mmes notations que dans les paragraphes qui prcdent. On retrouve ici la relation prsente au 3.2.3.
40
Exemple
Nous reprenons l'exemple dj utilis page 23.
41
RRffrreenncceess
Nota : nous avons limit les rfrences aux documents que nous avons effectivement utiliss
pour tablir ce document. Il ne saurait s'agir d'une bibliographie en matire de calculs
statistiques, d'autant moins, comme nous l'avons indiqu plus haut, que seuls des cas
simples ont t traits ici.
1.
2.
3.
4.
5.
6.
7.
24
42
0,01
0,015
0,02
0,025
0,03
0,035
0,04
0,045
0,05
0,055
0,06
0,065
0,07
0,075
0,08
0,085
0,09
0,095
0,1
u(1-/2)
2,575834515
2,43238901
2,326341928
2,241395123
2,170090738
2,108354238
2,053748176
2,004653652
1,959961082
1,918879207
1,880789569
1,845255611
1,811913535
1,780463208
1,750686351
1,722382876
1,695398169
1,669591256
1,644853
43