Anda di halaman 1dari 34

Cours 4: Statistique infrentielle chantillonnage

A- Statistique infrentielle et chantillon B- Thorie de lchantillonnage C- Distributions dchantillonnage D- Simulation dchantillons

A- Statistique infrentielle et chantillon

A- 1 Introduction
Etude Statistique = tude des caractristiques (variables statistiques) dun ensemble d'objets (population, compose d'individus) . Recensement : les valeurs des variables sont disponibles sur l'ensemble de la population statistique descriptive (pas besoin de stat infrentielle) Ex : Recensement de la population franaise, notes obtenues par tous les candidats un examen, salaires de tous les employs d'une entreprise, Pbme : coteux, long, impossible (population infinie), mesures destructrices (ex : tests en vieillissement acclrs) Sondage : On n'tudie qu'une partie de la population : un chantillon. Les mthodes permettant de raliser un chantillon de bonne qualit (sui ressemble la population dont il est issu) sont tudies en thorie de lchantillonnage. On cherche alors extrapoler la population entire les proprits mises en vidence sur l'chantillon statistique infrentielle
.

A-2 Les hypothses de la statistique infrentielle


La population est considre comme infinie (trs grande ) les variables statistiques qui la dcrivent peuvent tre considres comme des v.a.
La valeur prise par la variable statistique X pour un individu donn de la population ne peut pas tre dtermine a priori et dpend dun grand nombre de paramtres : On peut considrer sa valeur comme fonction du rsultat dune exprience alatoire.

A-2 Les hypothses de la statistique infrentielle


Ex : rpartition des salaires des salaris dans la population francaise : srie (x1,xn), vue comme n ralisations de la variable alatoire X=salaire
R p a r titio n d e s v a le u r s d u s a la ir e

frquence de ralisation

0.00000

0.00005

0.00010

0.00015

2 0 0 0

4 0 0 0 v a le u r s

6 0 0 0 p o s s i b le s

8 0 0 0

1 0 0 0 0

A-2 Les hypothses de la statistique infrentielle


La rpartition des valeurs de ces variables sont caractrises par des lois de probabilits La rpartition dune variable statistique X sur la population est dcrite par une loi de probabilit, caractrise par une densit de probabilit (X continue )ou une squence de frquences relatives chacune de ses valeurs (X discrte) possdant des caractristiques (E(X), V(X), autres paramtres rsumant la distribution.) Ex: si lon suppose que les salaires sont soumis un grand nombre de petites fluctuations dorigines diverses, X suit une loi normale tronque zero.
rpartition des salaires
4 e-04 0 e + 00 0 1 e-0 4 2 e-0 4 3 e -0 4

1000

2000

3000 x

4000

5000

6000

A-2 Les hypothses de la statistique infrentielle


Les variations simultanes de deux ou plusieurs variables statistiques sont dcrites par une loi jointe

caractrise par une densit jointe (variables continues) ou une squence des frquences jointes (variables discrtes).
Ex : les variations simultanes du salaire et de lage des salaris pourront tre dcrites par une fonction de densit jointe f(x,z).

possdant diffrentes caractristiques, par exemple un vecteur esprance, une matrice de variance covariance , un coefficient de corrlation linaire.

A-2 Les hypothses de la statistique infrentielle


Ces lois de probabilits sont gnralement
Totalement Inconnues : nous ne connaissons rien de la loi - problme de statistique infrentielle non-paramtrique Partiellement inconnues : nous connaissons la famille laquelle appartient la loi (sa forme) mais pas ses ou un certain nombre de ses paramtres (Ex : X obit une loi normale, mais on ne connat ni son esprance ni sa variance problme de statistique infrentielle paramtrique.

A-3 Les objectifs de la statistique infrentielle


Lobjectif de la statistique infrentielle est didentifier ces lois, au vu dun chantillon de valeurs des variables obtenu par sondage dans la population, grce diffrent types de mthodes :
Mthodes destimation : permettent dapprocher les lois ou certaines de leurs caractristiques (ex : approcher , partir de lchantillon lesprance E(Y) de la variable Y=salaire,.) Mthodes de tests dhypothses : permettent de confirmer ou dinfirmer des hypothses faites sur ces lois (ex : dcider si, au vu de lchantillon, laffirmation E(Y)=1500 euros est plausible.) Mthodes de modlisation et prvision : permettent dexpliquer et de prvoir la loi dune variable a partir de s valeurs prises par dautres (ex: au vu de lchantillon, les variations de salaires sont expliques presque exclusivement par lage X des salaries : Y=f(X)+) .

La pertinence de ces mthodes repose en premier lieu sur la qualit du sondage effectu thorie de lchantillonnage.

B- Thorie de lchantillonnage

B-1 Introduction

Thorie de lchantillonnage = Etude des liaisons existant entre


une population et les chantillons de cette population, prlevs par sondage. Mthodes dchantillonnage : ensemble des mthodes permettant de raliser un sondage (de prlever un chantillon de donnes) au sein dune population, de manire reproduire un chantillon aussi reprsentatif que possible de cette population. Evaluation de ces mthodes : le systme d'chantillonnage sera jug d'aprs la qualit des approximations des paramtres de la population, calcules sur lchantillon prlev . Pour cela, on tudiera la loi des caractristiques classiques dun chantillon (moyenne arithmtique , variance empirique,)

B-2 Les mthodes dchantillonnage


Les mthodes empiriques : les plus utilises par les instituts de sondage. Leur prcision ne peut pas tre calcule et leur russite dpend de lexpertise des enquteurs.
Echantillonnage sur la base du jugement : Echantillon prlev partir davis dexperts, qui connaissent bien la population et sont capable de dire quelles sont les entits reprsentatives. Pbme: lavis des experts est subjectif. Echantillonnage par la mthode des quotas : Echantillon prlev librement condition de respecter une composition donne lavance (sexe, ge, CSP,). Pbme : repose sur la pertinence des catgories retenues.

B-2 Les mthodes dchantillonnage


Les mthodes alatoires : Reposent sur le tirage au hasard dchantillons et sur le calcul des probabilits.
Echantillonnage alatoire simple : On prlve dans la population, des individus au hasard, sans remise : tous les individus ont la mme probabilit dtre prlevs, et ils le sont indpendamment les uns des autres. Echantillonnage alatoire stratifi : Suppose que la population soit stratifie, i.e. constitue de sous-populations homognes, les strates. (ex : stratification par tranche dage). Dans chaque strate, on fait un chantillonnage alatoire simple, de taille proportionnelle la taille de strate dans la population (chantillon reprsentatif). Les individus de la population nont pas tous la mme probabilit dtre tirs. Ncessite une homognit des strates. Augmente la prcision des estimations.

Echantillonnage par grappe : on tire au hasard des grappes ou familles dindividus, et on examine tous les individus de la grappe (ex: on tire des immeubles puis on interroge tous les habitants). La mthode est dautant meilleure que les grappes se ressemblent et que les individus dune mme grappe sont diffrents, contrairement aux strates.

B-2 Les mthodes dchantillonnage

Dans toute la suite du cours, on se place dans le cadre dun chantillonnage alatoire simple, sauf mention contraire.

B-3 Notion dchantillon alatoire


Sondage de 100 salaris Quelle que soit la technique dchantillonnage utilise, le contenu du jeu de donnes prlev varie dun sondage lautre
Population des salaris de France X=salaire

1 sondage :

2 sondage:

( x1 ,....x100 )
frquence de ralisation 0.00020 0.00030

( x '1 ,....x '100 )


R p a r titio n d e s v a le u r s d u s a la ir e

On pourrait rpter le sondage un grand nombre de fois, on obtiendrait la plupart du temps une rpartition diffrente des valeurs prleves. x = 2050.7 s x = 2959.1 x = 2153.8 s x = 3002.2 Le rsultat dun sondage est alatoire
0.00000 0.00010 0 2000 4000 6000 8000 10000 12000 v a le u r s p o s s i b le s

B-3 Notion dchantillon alatoire


Deux faons diffrentes de modliser cet ala 1 Modlisation : Lchantillon prlev consiste en n ralisations X(1) , , X() de la v.a. X. Sondage alatoire simple de 100 salaris
Population des salaris de France X=salaire

100 ralisations de X 1 sondage : 2 sondage :

( x1 ,....x100 )
= ( X (1 ), .... X (100 ))

( x '1 ,....x '100 )


= ( X ( '1 ), .... X ( '100 ))

B-3 Notion dchantillon alatoire


2 Modlisation : On associe au premier individu tir une variable alatoire X 1de mme loi que X Elle vaut, x1 , x '1 , x ''1 .. selon le sondage. On fait de mme pour les n1 autres individus. Lobjet ( X 1 ,..., X n ) , o Xi est la valeur de X pour le i individu tir, est un vecteur de v.a. i.i.d. de mme loi que X. Un tirage correspond une seule ralisation de celui-ci.:
( x ,..., xn ) = ( X ( ),..., X n ( )) 1 1

Sondage alatoire simple de 100 salaris


Population des salaris de France X=salaire

1 sondage :

2 sondage :

X1(w) X2(w) X100(w) X1(w) X2(w)X100(w) x1 x2 x100 x1 x2


x100

( X 1 ,..., X n )

est appel lchantillon alatoire.

B-4 Etude des statistiques classiques


Objectif : tudier la loi des statistiques classiques de lchantillon alatoire (les distributions dchantillonnage), en fonction de la distribution de la variable parente, lorsque la taille de lchantillon augmente. Dfinition dune statistique = variable alatoire, dfinie comme une fonction de lchantillon alatoire

S = f ( X1 ,..., X n )
Lorsque ( X 1 ,..., X n ) = ( x1 ,..., xn ) la ralisation de S vaut s = f ( s1 ,..., sn ) Exemples de statistiques : Moyenne empirique de lchantillon, variance empirique, covariance empirique, fonction de rpartition,..

B-4 Etude des statistiques classiques


Rq: En statistique infrentielle, les indicateurs usuels de la statistique descriptive deviennent des statistiques de lchantillon alatoire

C- Distributions dchantillonnage

C-1 Notations
On sintresse la caractristique X dune population (X=v.a.). On pose E ( X ) = m, V ( X ) = On note ( X 1 ,..., X n ) lchantillon alatoire associ un sondage alatoire simple de n individus de cette population et ( x1 ,..., xn ) une ralisation de celui ci (1 sondage particulier)

Empirique veut dire de lchantillon

C-1 Moyenne empirique


Dfinition :

Loi et moments : Loi inconnue en gnral

1 n Xn = Xi n i =1

Info :

i ) E ( X n ) = m, ii ) V ( X n ) =
Proprits asymptotiques :
Loi des grands nombres

estimateur de m. Il est : - sans biais (i)) - asymptotiquement efficace (ii)) - fortement convergent (iii)) - la loi de lerreur dapproximation est approximativement gaussienne lorsque n est grand (iv).
distribution de la moyenne

X n approche m : cest un

P p. s. iii ) X n m ; X n m

Thorme central limite (TCL)

n= n>n n>n

n>n

iv) n

Xn m

L n ( X n m ) N (0, )

L N (0,1)

C-1 Moyenne empirique


Interprtation statistique :
i) et ii) si lon prlve un grand nombre k dchantillons de taille n, et que lon calcule leur moyenne, la moyenne des k valeurs moyennes ainsi obtenues vaut peu prs m, et la variance de ces k valeurs est dautant plus faible que n est grand. iii) lorsque la taille de lchantillon prlev est trs grande, les k moyennes valent presque toutes m. iv) si lon prlve un grand nombre k dchantillons de grande taille n et que lon calcule leurs moyennes renormalises, lhistogramme des k valeurs est proche de la densit de la loi normale centre rduite. TCL : histogramme de la srie normalise des moyennes de 10000 chantillons de taille 50, 500, 1000, 5000 de E(1)

n=50
0.40 0.40

n=500

0.35

0.30

0.25

-1.0

-0.5

0.0 x

0.5

1.0

0.25 -1.0

0.30

0.35

-0.5

0.0 x

0.5

1.0

n=1000
0.40 0.40

n=5000

0.35

0.30

0.25

-1.0

-0.5

0.0 x

0.5

1.0

0.25 -1.0

0.30

0.35

-0.5

0.0 x

0.5

1.0

C-1 Moyenne empirique


Application : loi dun pourcentage On tire dans une urne de Bernouilli compose dune proportion p de boules rouges n boules avec remise. On note X le nombre alatoire de boules rouges Q la frquence empirique :

X 1 n Q = = X i , X i B ( p) n n i =1

p (1 p ) n p (1 p ) Lorsque n est grand, Q N p, n E (Q) = p; V (Q) =

C-2 Variance empirique


Dfinitions :
1 n 2 Sn = ( X i X )2 n i =1
Rq : ce nest pas une somme de va indpendantes Autres expressions :

1 n 2 S = Xi X 2 = X 2 X 2 n i =1
2 n

1 n (*) S = ( X i m) ( X m) n i =1
2 n

Loi et Moments : La loi est gnralement inconnue.


n 1 n 1 E (S ) = , V ( S n2 ) = 3 ( (n 1) 4 (n 3) 4 ) n n
2 n

V (S )

2 n

4 4
n

Outils de dmonstration pour la variance : on utilise (*) et Cov( X i , X n ) =


n

C-2 Variance empirique


2 Lien entre X n et S n : ils sont asymptotiquement non corrls :

Proprits asymptotiques :
2 P 2 p .s. Sn 2 ; Sn 2

Cov( X n , S ) =
2 n

1 1 n n

Dm : On utilise la condition suffisante de Convergence en probabilit.

2 Sn 2

4 4
2 n

L N (0,1)

Dm :

S = Tn ( X m) avec n

Tn 2

4 4

L P N (0,1) et ( X m) 0

C-3 Moyenne et la variance empirique : Cas gaussien


Si X suit une loi N(m, ). Alors :
2 2 Cov( Sn , X n ) = 0 : Sn Xn

X n N m, n 2 nS n 2 (n 1) 2
X m T (n 1) n 1 n S2 n

RQ : une combinaison linaire de v.a. gaussiennes indpendantes est gaussienne.

C-4 Fonction de rpartition empirique


Dfinition :
Fn ( x) = nombre de X i x 1 = 1X i x n n i =1
n

Fn(x)

1
(n-1)/n 2/n

Pour chaque valeur x R , Fn ( x) est une variable alatoire Pour une ralisation ( x1 ,..., xn ) donne de lchantillon alatoire, cest une fonction en escalier valeurs dans [0,1], croissante, continue droite dans [0,1], de sauts gaux 1/n.

1/n

x1

x2 x3

xn-1 xn

C-4 Fonction de rpartition empirique


Loi et moments x fix

i ) nFn ( x) B (n, F ( x)) ii ) E ( Fn ( x)) = F ( x)

Info : Pour tout x R , Fn ( x) approche F ( x ) : cest un estimateur de F ( x ) . Il est :


- sans biais (ii)) - asymptotiquement efficace (iii)) - fortement convergent (iv))

iii ) V ( Fn ( x)) =

F ( x)(1 F ( x)) n

Proprits asymptotiques
Lois des grands nombres :
P p.s. iv) Fn ( x) F ( x) ; Fn ( x) F ( x)

Outils de dm: Yi = 1X i x B( F ( x)) donc

nFn ( x) = Yi B (n, F ( x))


i =1

Thorme central limite (TCL)


L v) n ( Fn ( x) F ( x) ) N ( 0, F ( x)(1 F ( x)) )

C-4 Fonction de rpartition empirique


F(x) et Fn(x)
1.0 0.0 -3 0.2 0.4 0.6 0.8

-2

-1

0 x

D-1 Simulations dun chantillon: Cas gnral


Thorme dinversion
Soit F une fonction de rpartition sur R. On note F 1 ( y ) = inf{x R / F ( x) y} linverse gnralis de F (vaut linverse habituelle lorsque F est continue et strictement croissante). Soit U deloi uniforme sur [0,1]. Alors, 1. 2.
X = F 1 (U ) a pour fonction de rpartition F

Si F est continue sur R et X de fdr F, U=F(X) suit une loi uniforme sur [0,1].

D-2 Simulations dun chantillon : cas continu


Simulation dune loi continue
Simulation de n ralisations X de loi F: on simule n ralisations dune loi uniforme sur [0,1] (tirage au hasard de n nombres sur cet intervalle) : u1,,un On calcule de loi F.

i = 1,...., n, xi = F 1 (ui ). Ce sont n ralisations de X

D-2 Simulation dun chantillon : cas discret


Simulation dune loi discrte
Soit ( pi = P ( X = xi ) ) la loi de probabilit discrte dune variable k 1i n alatoire valeurs dans {x1 ,..., xn }. On note sk = P ( X xk ) = pi n i =1 etF ( x) = sk 11xk 1 x< xk la fonction de rpartition de cette loi en tout point. k =1 Soient u n ralisations dune variable de loi uniforme sur [0,1]. 1 ,..., un Alors

i = 1,..., n, x = F (ui ) = xk 1sk 1 <ui sk


* k
1

k =1

Sont n ralisations dune variable alatoire discrte de loi F.