Anda di halaman 1dari 8

J.S.

Pierre, cours dchantillonnage, Annexe 1


1. 1. La variance empirique dun chantillon de taille n est un estimateur biais de la variance de la population. Dmonstration : Nous conduirons cette dmonstration dans le cadre de lchantillonnage avec remise. La variance empirique de lchantillon scrit :

s2 =

1 n ( xi x )2 n i= 1

(1)

Nous allons calculer son esprance mathmatique sous un certain modle statistique. Lesprance tant un oprateur linaire1, nous pouvons crire :
E ( s2 ) = 1 n 2 E ( xi x ) n i= 1
A

(2)

Le terme A est lesprance des carrs des carts entre les observations et la moyenne de lchantillon

1 n A = E xi xi n j =1

(3)

Pour aller plus loin, prcisons notre modle statistique : chaque observation se dcompose entre la moyenne de la population et un cart alatoire i .
xi = + i

(4)

Sur les variables alatoires i , nous faisons les hypothses suivantes, respectes si le schma de tirage alatoire a t correctement suivi :

E ( i ) = 0
Les carts sont nuls en moyenne

(5)

Var ( i ) = 2 = E ( i2 )

(6)

La variance des i est celle de la population, elle est gale lesprance mathmatique de leurs carrs (puisque leur esprance est nulle)

i j E ( i j ) = 0

(7)

Le tirage au hasard indpendant garantit lindpendance des i , et donc leur covariance est nulle (covariance=esprance du produit de variables alatoires centres). Il nous reste expliciter le terme A la lumire de ce modle :

Oprateur linaire : distributif par rapport laddition et par rapport la multiplication par une constante. Si x, y sont considres comme des variables, et comme des constantes et si f est un oprateur linaire, alors f ( x + y ) = f ( x ) + f ( y ) . Ceci justifie (2)

1 n A = E + i ( + j ) n j =1 est une constante que lon peut videmment sortir de la somme 1 n A = E + i ( j ) n j =1


2

(8)

(9)

Attention ! le terme de droite dans la parenthse nest pas nul, car les carts j sont dfinis par rapport , moyenne de la population et non par rapport x , moyenne de lchantillon. Remarquons que la somme de j=1 n des j contient i que nous allons extraire de cette somme. Nous constatons que disparat dans lexpression (9) et obtenons :

1 n 1 1 n A = E i j = E i i j n j =1 n n j i
En mettant 1 n 2 en facteur et en dveloppant on obtient

(10)

2 2 n n n 1 1 2 2 A = 2 E ( n 1) i j = 2 E ( n 1) i + j 2 ( n 1) i j (11) n n j i j i j i Et en utilisant la proprit de linarit de loprateur esprance, nous pouvons le distribuer sur les variables alatoires :
2 n n 1 2 2 A = 2 ( n 1) E ( i ) + E j 2 ( n 1) E ( i j ) n j i j i =0 Le double produit est nul en vertu de lhypothse (7). A se simplifie donc en :

(12)

2 n 1 2 2 A = 2 ( n 1) + E j n j i

(13)

On calcule donc le carr de la somme des j


n n n n j = 2 + 2 j k j j i j i k = j +1 j i k j 2

(14)

puis son esprance


n n n n E j = E ( 2 ) + 2 E ( j k ) = ( n 1) 2 j j i j i k = j +1 j i 2 =0 k j = 2

(15)

les doubles produits sannulent, toujours en vertu de lhypothse (7). Il ne reste plus qu rmplacer ce rsultat dans (13)
2 2 1 2 2 ( n 1) 2 + ( n 1) 2 = 2 ( n 1) + ( n 1) = 2 n2 2n + 1 + n 1 n2 n n et lon obtient finalement

A=

(16)

A=
Nous replaons maintenant A dans (2)

2
2

n 1 2 n2 n = n n
1 n 1 n n 1 A= n n 2 n i= 1 i= 1

(17)

E ( s2 ) = Et on obtient :

(18)

E ( s2 ) = 2

2
n

(19)

s 2 nest donc pas un estimateur sans biais de 2 . Son esprance est infrieure 2 . On peut mme trs prcisment exprimer le biais en dveloppant (20) : n 1 2 (20) E ( s2 ) = n Le biais systmatique B vaut donc :

B=

2
n

(21)

On constate galement que ce biais tend vers zro lorsque n tend vers linfini. On dit que s 2 est un estimateur biais par dfaut mais asymptotiquement sans biais. Mais il est trs facile de construire un estimateur non biais. A partir de (20) on trouve :

ns 2 2 E = n 1 mais ns 2 n 1 n 1 n 2 2 = ( xi x ) = n 1 ( xi x ) n 1 n 1 n i =1 i =1

(22)

(23)

Dont lesprance vaut 2 . (23) fournit donc un estimateur sans biais de 2 que lon notera 2 ( sigma carr chapeau ) dont la formule est :
2 = 1 n 2 ( xi x ) n 1 i =1

(24)

Et lon comprend bien, ds lors, pourquoi, partir dun chantillon de taille n on calcule deux variances : - La premire, s 2 est la variance empirique de lchantillon. Cest la variance exacte de lensemble des individus de lchantillon. Cependant, ce nest pas un estimateur sans biais de la variance de la population de rfrence. Il nest quasymptotiquement non biais. On lobtient en divisant la somme des carrs des carts par n. - La seconde, 2 est lestimateur de la variance de la population. Cet estimateur est non biais, et cest celui que lon utilise habituellement pour valuer la variance dune population dans le cadre dun chantillonnage alatoire avec remise

Comparaison des deux estimateurs sur un mme chantillon

s 4.0 0

4.5

5.0

5000

10000 n

15000

20000

25000

Figure 1 : laxe horizontal figure leffectif de lchantillon, les points blancs s 2 , les points noirs 2 , la ligne horizontale la vraie variance de la population (4). On constate que trs vite les points noirs sont confondus avec les points blancs, mais aussi que la convergence des chantillons vers la vraie variance de la population est trs lente !

agrandissement pour les faibles valeurs de n

s 4.0 0

4.5

5.0

100

200 n

300

400

500

Figure 2 : Agrandissement de la figure prcdente dans la gamme 10 500 (valeurs successives : 10,20,50,100,250,500). Points blancs et ligne continue : s 2 . Points noirs et ligne tirete : 2 Exemple : On mesure la taille de 50 femelles du parasitode Leptomastix dactylopii (parasite de la cochenille du manioc). Le calcul des statistiques lmentaires par R nous donne le rsultat suivant : > attach(biassang) > summary(tail) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.630 1.455 1.745 1.782 2.148 2.920 > mean(tail) [1] 1.7818 > var(tail) [1] 0.2828640

La notice de R nous avertit que la fonction var renvoie la somme des carrs des carts diviss par n-1. Cest donc lestimation de la variance de la population. La variance brute de lchantillon est donc :
> n<-length(tail) > n [1] 50 > var(tail)*(n-1)/n [1] 0.2772068 > valeur lgrement sous-estime par rapport la variance de la population. Nous en avons vu la raison plus haut 2.2 Application des thormes sur les variables alatoires - Chaque x i est une variable alatoire indpendante (par tirage) de moyenne et de variance 2 . Il en rsulte que o Lesprance de leur somme est la somme de leurs esprances soit n o La variance de leur somme est la somme de leurs variances soir n 2 - Ceci justifie les paramtres que nous avons affects la loi normale en Erreur ! Source du renvoi introuvable.. - Lesprance est un oprateur linaire. Pour obtenir la moyenne, nous multiplions la somme des valeurs par 1 n . Lesprance de cette nouvelle variable alatoire est

donc elle aussi multiplie par 1 n . Lesprance de x est donc . ( c'est -

n n

)
2 . Et n

Lorsquune variable alatoire est multiplie par une constante, sa variance est multiplie par le carr de la constante. Par consquent, la variance de la somme ,
n 2

est divise par n 2 . La variance de la moyenne x est donc

finalement, lorsque n tend vers linfini,

2 n x N , n

(25)

2.3 Lerreur standard sur la moyenne Lcart-type de la moyenne est, videmment la racine carre de sa variance. On lappelle erreur standard sur la moyenne. Cest en quelque sorte lerreur moyenne que lon commet sur lestimation de la moyenne de la population. On conoit aisment que ce paramtre puisse constituer une mesure de prcision dchantillonnage. On le notera m
m = n

(26)

Et lon note quil dcroit comme linverse de la racine carre de n.


2.4 Une autre mesure de la prcision Il serait agrable de dfinir lincertitude sur la moyenne par un encadrement. On peut utiliser pour cela lintervalle de confiance sur la moyenne. Cest lintervalle, centr sur la moyenne observe , qui contient la vraie moyenne de la population avec une probabilit de 1-.. Pour fixer les ides, si = 0.05 , lintervalle de confiance a 95% des chances de contenir la moyenne de la population . On utilisera alors le intervalle de confiance comme mesure de lincertitude absolue sur la moyenne. Si lon peut admettre la convergence, la moyenne x est

distribue selon la loi normale dfinie en (25). Il sensuit que la quantit x est distribue normalement avec une esprance nulle et un cart type
z = x n
n

La variable (27)

est alors distribue comme une loi normale centre rduite (cart rduit) desprance nulle et de variance unit. Cette loi est tabule, et lon sait que
Pr z < z < z = 1 2 2
2 2

(28)

Par exemple, si = 0.05 , z = 1.96 . Si = 0.01 , z = 2.56 deux valeurs quil est bon de connatre. Nous allons maintenant pouvoir calculer lintervalle de confiance qu seuil . Il suffit pour cela de remplacer z par lexpression (27). Alors
z < x < z = 1 Pr 2 2 n

(29)

Cest dire
= 1 < < x + z Pr x z n n 2 2

(30)

mais on ne connat pas . On le remplacera par lestimation que lon en a fait partir de lchantillon selon la formule (24). Lintervalle de confiance estim est alors :
Ic = x z ,x + z n n 2 2

(31)

et la prcision dchantillonnage, note d sera gale au intervalle de confiance, cest dire :


d = z
2

(32)

la fourchette Pour le risque = 0.05 , la valeur de z 0.025 est 1.96, voisine de 2. Cela nous permet dappliquer la rgle empirique de la fourchette , chre aux instituts de sondage : on estime que la moyenne de la population se situe dans une fourchette de deux erreurs standard autour de la moyenne de lchantillon. Exemple : Dans le cas de Leptomastix dactylopii, utilisons encore R pour calculer lintervalle de confiance : > # calcul de la moyenne > history(100) > mean(tail) [1] 1.7818 > qnorm(1-alpha/2) # calcul de z au seuil alpha/2 [1] 1.959964 > # demi intervalle de confiance > d<-qnorm(1-alpha/2)*sqrt(var(tail)/n);d [1] 0.1474185 > # borne infrieure > mean(tail)-d [1] 1.634382

> #borne suprieure > mean(tail)+d [1] 1.929218 2.5 Prcision absolue et relative La prcision calcule en (32) est la prcision absolue sur la moyenne. Il est naturel de dfinir aussi la fraction de la moyenne laquelle correspond cette prcision en divisant sa valeur par x . On dfinit alors la prcision relative dchantillonnage :
drel = d x

(33)

que lon peut facultativement multiplier par 100 pour lexprimer en pourcentage. Ainsi, dans lexemple :
> # prcision relative > 100*d/mean(tail) [1] 8.273571 > La taille de la population est connue 8.27% prs

( suivre)