2005
Technique dEnqute et
Mthode de Sondage
Matthieu NEVEU
Licence dconomtrie
Anne 2004-2005
Rfrences
Ouvrages gnraux
Echantillonnage
Questionnaires
Manuels de statistiques
Introduction
Acteurs
Introduction
LEnqute
Le Recensement
Lchantillonnage
- Dfinition -
Sondages ou Tests
Reprsentativit de lchantillon
Introduction
- Dfinition -
Le champs de lenqute
Lunit dchantillonnage
Lchantillonnage
Variables dintrts
Introduction
Introduction
Rdaction du questionnaire :
Administration du questionnaire :
Introduction
Calcul de la
taille de
lchantillon
Mthode non-Probabiliste
Mthode de recueil
Rdaction du questionnaire
Administration du questionnaire
Traitement et analyse des donnes
Le
La
Le
Le
LApproche Probabiliste
Partie de la thorie des sondages qui sappuie sur la thorie des probabilits
Logique daffinit : risque que les units dchantillonnage suivent une logique
daffinit.
Biais de slection : ce biais est li la population de rfrence.
LApproche Probabiliste
Tirages avec remise : Risque dinterroger plusieurs fois la mme personne au lieu
dunits diffrentes.
Equiprobabilit : tous les individus ont la mme probabilit (1/N) dtre choisis chaque tirage.
Probabilit que lindividu ne soit pas choisi au cours dun tirage est 1 - 1/N.
Probabilit
quil
ne
figure
pas
dans
lchantillon
est
:
er
me
ime
Pr ({ non choisi au 1 tirage} { non choisi au 2
tirage} { non choisi au n
tirage}).
Tout individu a la mme probabilit de figurer dans lchantillon. Lorsque N est grand, cette
probabilit est peu diffrente du taux de sondage n/N.
LApproche Probabiliste
Probabilit que lindividu soit choisi au ime tirage est gale au produit de la probabilit quil
ne lait pas t avant par la probabilit quil le soit ce ime tirage : 1/N
A chaque tirage, un individu a donc la mme probabilit 1/N dtre choisi. La probabilit quil
figure dans lchantillon est :
Les vnements { choisi au ime tirage} tant incompatibles, cette probabilit est gale la
somme des probabilits { choisi au ime tirage}, soit n/N.
Si le taux de sondage f=n/N est infrieur 0.05 (0.10 selon la prcision souhaite),
lchantillon sans remise peut tre assimil un chantillon avec remise.
LApproche Probabiliste
Jugement des autres modles dchantillonnage par rapport ses proprits. Il sert, en
quelque sorte, dtalon.
Il constitue la brique lmentaire. Ex. : les sondages stratifis et les sondages deux
degrs sont des assemblages de sondages simples
LApproche Probabiliste
Hypothses :
N = 5 titulaires de comptes.
Echantillon de n = 2.
Dpts sur ces comptes sont : 13, 15, 17, 25 et 30 milliers deuros. La somme vaut 100 000 .
Lorganisme charg de lenqute ignore ces montants et se fixe pour objectif dvaluer leur moyenne partir
des deux valeurs quil constatera sur lchantillon.
Soient :
y1 et y2 les valeurs observes et
y1 y2
2
leur moyenne empirique qui est une variable alatoire qui dpend de lchantillonnage
Questions :
Recenser les situations possibles dans le cas o lchantillon est constitu dunits distinctes ( sans remise ).
Calculer la moyenne y des 10 valeurs possibles (chantillons) et la moyenne Ydes 5 valeurs des comptes (base de
sondage).
LApproche Probabiliste
LApproche Probabiliste
ni yi
n
i 1
La moyenne : y 1
La variance : 1 ni(yi y)
n i 1
La variance corrige :
S n
n1
N
Lerreur type :
v(y) 1 Ni( Yi Y )
N i 1
LApproche Probabiliste
Daprs la table de Gauss, 95% des valeurs possibles pour y se situent une
distance infrieure 1,96. V(y) , soit environ moins de 2 erreurs-type deY
Ayant obtenu la valeur de y par lchantillon, on en dduit un intervalle
contenant le paramtre Y , avec une probabilit de 95% :
LApproche Probabiliste
Ou de faon approche : P p2 qp , p 2 qp
n
n
Avec q = 1-p
LApproche Probabiliste
La prcision relative (PR) vaut PA/p. Cela signifie que la marge dincertitude est de lordre
de PR de la quantit value.
La fourchette des rsultats possibles pour P reprsente par cet intervalle de confiance est
plus ou moins large et correspond une estimation peu prcise.
Cest la taille de lchantillon qui est en cause : lintervalle de confiance est construit daprs
lcart-type, elle-mme fonction de n comme on la vu.
En consquence, pour diviser par deux la largeur de lintervalle de confiance, il aurait fallu un
chantillon de n = 800 clients au lieu de 200. Pour diviser encore par deux la fourchette, il aurait
fallu n = 3200 interrogs
LApproche Probabiliste
Si la question est ainsi pose, il ny a pas de rponse directe. Cela dpend de la contrainte de
budget plus ou moins forte.
Soit C est le budget maximum allou lenqute et c est le cot unitaire de sondage, la taille
maximale possible est : C/c.
Mais, cette taille peut tre insuffisante pour assurer des rsultats suffisamment fiables. La
question qui se pose alors est :
Mme dans ces termes, il ny a pas de rponses toute faite. Il faut dabord dfinir ce quon entend par prcision
acceptable.
On peut convenir dun cartement maximum tolr de lintervalle de confiance, i.e. fixer une borne la prcision
absolue
S
2 (1 f)
2
y n
La difficult tient dans le fait quil faut avoir a priori une ide de lordre de grandeur des
quantits qui doivent intervenir et de leur variance.
LApproche Probabiliste
On connat les rsultats dune enqute similaire ralise dans un pass pas trop
loign, ses rsultats peuvent permettre de calibrer lenqute actuelle.
Il y a, dans la base de sondage, des informations dtailles relatives une variable Z bien
corrle avec la variable Y de lenqute.
Ces situations ne sont pas exhaustives. Elles illustrent le 1er devoir de tout sondeur :
Mobiliser toute linformation disponible a priori
et pertinente au regard de lenqute quil doit effectuer.
LApproche Probabiliste
Toutes les combinaisons de n lments parmi les N de la population sont ralisables avec la mme
probabilit. Chaque lment a la mme chance que les autres dtre slectionn. Il faut toujours
sassurer que cette condition est bien vrifie sous peine dutiliser un formulaire inadquat.
Lexemple des sondages sur place (enqute ralises la sortie des muses, de spectacles,
de centres commerciaux) montre que ce nest pas toujours chose aise :
Sil y a des variations daffluence, et si le rythme des interviews est constant, on ne peut plus parler de sondages avec
probabilits gales.
Si pendant la priode A laffluence est le double de celle de la priode B :
Les personnes prsentes en A ont deux fois moins de chance dtre interviewes quen B, sauf si, par exemple, on
double le nombre denquteurs en A.
Cela ne veut pas dire que le sondage soit mauvais, mais il faut traiter les observations de faon diffrente par des
pondrations adquates.
Il est parfaitement lgitime (et souvent souhaitable) de raliser des sondages avec des probabilits
dinclusion ingales selon les individus de la population.
Mais, le traitement des rsultats doit en tenir compte et ce nest pas celui du SAS (Attention donc au
maniement sans prcaution des logiciels de dpouillement denqute !).
LApproche Probabiliste
Mthodes concrtes de ralisation, lorsque la base de sondage est constitue par un fichier dont
les units sont identifies par un numro de 1 N.
La simplicit du tirage systmatique fait son succs. Mais, ncessit de vigilance sur ses
proprits :
Si le rangement des units dans le fichier est indpendant de la variable dintrt, la mthode des tirages
systmatiques est un SAS.
Si les units sont tires selon un ordre corrl avec la variable dintrt : stratification implicite. Le rsultat peut
tre meilleur quun SAS au sens strict.
Si priodicit dans le fichier et si le pas des tirages est gal la priode (ou un multiple) : possibilit de
slectionner des individus trs particuliers.
En pratique :