Anda di halaman 1dari 26

M1 IAD Notes du cours RFIDEC (2)

Jean-Yves Jaray
8 octobre 2007

1
1.1

La statistique inf erentielle


Introduction

La statistique inf erentielle a pour hypoth` ese de base que les observations (les donn ees) (x1 , x2 , , xk , , xn ) ne sont quune r ealisation dune variable al eatoire multi-dimensionnelle, X = (X1 , X2 , , Xk , , Xn ) appel ee echantillon empirique ; cette hypoth` ese nous permet d etudier les propri et es des echantillons dans le cadre du mod` ele probabiliste. On suppose de plus en g en eral que les n variables Xk ont m eme loi et sont mutuellement ind ependantes, ce qui entra ne lexistence de relations simples entre les caract eristiques de la loi commune aux Xk et celles des lois de va. riables fonctions de l echantillon, comme la moyenne empirique X En statistique inf erentielle, lincertitude porte sur la v eritable loi suivie par une variable X0 dont est tir e l echantillon, ce qui veut dire que chacune des variables Xk suit la m eme loi que X0 . On sait seulement que cette loi appartient ` a un certain ensemble de lois. Lorsque cet ensemble peut etre d ecrit comme une famille de lois se distinguant les unes des autres par la valeur dun (ou de plusieurs) param` etre(s), on est dans le cadre de la statistique param etrique : par exemple, l echantillon peut etre tir e dune loi normale N (m, 1) de variance connue et desp erance m inconnue mais localis ee dans un intervalle [m0 , m1 ]. On peut alors sinterroger sur la vraie valeur du param` etre m dans [m0 , m1 ] ; cest un probl` eme destimation ponctuelle. On peut aussi se demander si la vraie valeur de m est plut ot une valeur m0 quune autre valeur m1 , ou bien le contraire. Cest un test dhypoth` ese. Dautres cat egories de tests aident ` a r epondre ` a la question de lind ependance de deux variables (tests dind ependance ), ou ` a d ecider si lon peut consid erer ou non que la loi de X0 est bien une loi donn ee (tests dajustement ) ou encore si deux echantillons distincts sont bien tir es de la m eme loi (tests de comparaison de moyennes ou de variances ) ; etc. Notons que 1

dans ces exemples, il faut trancher entre une hypoth` ese bien sp ecique et lhypoth` ese contraire, qui ne lest pas ; on est typiquement dans le domaine de la statistique non-param etrique. Pour r esoudre tous ces probl` emes, deux approches distinctes sont couramment utilis ees : celle de la statistique classique et celle de la statistique bay esienne. Leur di erence essentielle est dans le traitement des param` etres : en statistique classique un param` etre a une valeur xe mais inconnue ; en statistique bay esienne, cest une variable sur laquelle on a une information uctuante, exprim ee sous forme dune loi de probabilit e sur lespace des valeurs possibles de ce param` etre. Nous allons commencer par d ecrire lapproche classique dans les probl` emes destimation ponctuelle puis de tests.

2
2.1

La statistique inf erentielle


Estimation ponctuelle en statistique classique
Exemple introductif : estimation dune moyenne

2.1.1

Supposons que la famille de lois P ` a laquelle appartient la vraie loi de la variable X0 dont est tir e l echantillon d epend dun param` etre , que la valeur de ce param` etre nest autre que lesp erance math ematique de la loi correspondante et enn que toutes ces lois ont m eme variance 2 : si les lois de P = {P : } ont des densit es {p : } et que lon note E (X0 ) lesp erance de X0 si sa loi est P , on a donc : , E (X0 ) = x0 p (x0 ) dx0 = .

Quelle est la valeur vraie 0 ? On lignore, mais une indication sur sa valeur peut nous etre donn ee par la moyenne de l echantillon, x . En eet, des , dont propri et es, vues pr ec edemment, de la variable moyenne empirique X x est une r ealisation, il r esulte que ) = , E (X

(n) au lieu de X quand n varie) et que (nous ecrivons X (n) ) = E (X (n) )2 = , V (X


2 n .

On est alors justi e` a penser que si n est assez grand, la valeur x observ ee sera le plus souvent proche de la valeur vraie 0 du param` etre puisque : i) en moyenne, elle vaudra 0 ; et ii) en moyenne, l ecart quadratique entre sa valeur et 0 sera faible car il 1 . tend vers 0 comme n ( n ) On dit que X est un estimateur sans biais et convergent de .

Les d enitions pr ecises de ces propri et es sont donn ees plus loin, mais il nous faut dabord d enir quelques termes. 2.1.2 D enitions

Fonction de vraisemblance Soit P = {P : } la famille de lois de la variable X0 dont est tir e l echantillon. La loi de l echantillon, variable ` an dimensions, est alors elle-m eme param etr ee par . Dans le cas discret, ces lois sont caract eris ees par les probabilit es el ementaires L(x, ) = L(x1 , x2 , , xk , , xn , ) = et, dans le cas continu, par les densit es L(x, ) = L(x1 , x2 , , xk , , xn , ) =
n k =1 p (xk ), n k =1 P (xk ),

, ;

Dans les deux cas L(x, ) est appel ee la vraisemblance de l echantillon. Statistique On appelle statistique toute fonction T = f (X1 , X2 , , Xk , , Xn ) = f (X ) de l echantillon empirique. Estimateur Un estimateur est simplement une statistique susceptible d etre utilis ee pour estimer la valeur dune caract eristique de la loi de X0 en raison de ses propri et es sp eciques. La caract eristique ` a estimer co ncidera souvent avec le param` etre ou une fonction du param` etre de la famille de lois possibles de X0 . 2.1.3 Propri et es des estimateurs

Il parait souhaitable que lestimateur dun param` etre poss` ede les propri et es suivantes : - un estimateur T est sans biais lorsque sa moyenne (= son esp erance math ematique) est egale ` a la valeur vraie (quelle quelle soit) du param` etre : , E (T ) = , (en moyenne, on ne se trompe pas). - un estimateur (plus pr ecis ement une suite destimateurs) Tn = fn (X (n) ) est convergent lorsque, quelle que soit la valeur vraie de , il entra ne une erreur quadratique moyenne (sur la valeur vraie du param` etre) tendant vers z ero lorsque la taille, n, de l echantillon X (n) tend vers linni : , limn
E [(Tn

)2 ] = 0,

(si lon recevait autant dinformation que lon voulait, on ne se tromperait pas sur la valeur de ).

La comparaison avec dautres estimateurs utilise les concepts suivants : - un estimateur Tn = fn (X (n) ) est asymptotiquement ecace lorsquil nexiste satisfaisant pas dautre estimateur Tn limsupn

E [(Tn )2 ] > 1, )2 ] E [(Tn

(aucun autre estimateur ne donne une erreur quadratique plus faible dans les grands echantillons). - un estimateur T est sans biais de variance minimum quand il est sans biais et que sa variance, qui vaut alors V ar (T ) = E [(T )2 ], est inf erieure ` a celle de tout autre estimateur sans biais. Cest une propri et e plus forte que la pr ec edente, qui ne disait quelque chose que pour n grand.

Exhaustivit e Pour que lobservation dune variable al eatoire puisse nous apporter de de linformation concernant un param` etre , il est n ecessaire que sa loi d epende de . Cest le cas pour un echantillon empirique X de vraisemblance L(x, ). Supposons quau lieu du vecteur observ e x = (x1 , , xk , , xn ) lon se contente de retenir la valeur t = f (x) prise par une certaine statistique T = f (X ) ; en g en eral la loi de T d epend de et T apporte de linformation sur ce param` etre ; mais en apporte-t-elle autant que l echantillon ? oui, si conditionnellement ` a la connaissance la valeur t de T , la loi de X ne d epend plus de ; or par d enition des probabilit es conditionnelles, cest, dans le cas discret, P (x/t) =
L(x, ) PT, (t)

o` u PT, est la loi de T ;

P (x/t) est alors une fonction de x seul (car t = f (x)) et donc L(x, ) est de la forme L(x, ) = g(t, )h(x) On obtiendrait la m eme factorisation, mais portant sur des densit es, dans le cas continu. Par d enition, lestimateur T est dit exhaustif de linformation concernant le param` etre contenu dans l echantillon lorsque la vraisemblance se factorise selon la forme ci-dessus. Exemple Loi de Poisson P () de param` etre inconnu La vraisemblance est L(k1 , , ki , , kn , ) =
exp{}.ki n i=1 ki !

= exp{n}

Pn Qn i=1 ki i=1 ki !

La variable S = n eme une loi P (n), de probabilit e i=1 Xi , qui suit elle-m (n)s el ementaire g(s, n) = exp{n} s! est un estimateur exhaustif de car
! L(k1 , , ki , , kn , ) = g(s, n) ns Qs n
i=1

ki ! .

Estimateurs du maximum de vraisemblance mum de vraisemblance T = f (X ) est d eni par :

Lestimateur du maxi-

x t = f (x) = argmax L(x, ). Cest donc la valeur de pour laquelle la probabilit e dobserver x etait la plus grande. Sous des conditions ad equates (concavit e et d erivabilit e de L par rapport ` a ), cest la solution de l equation L(x, ) = 0. Ceci se g en eralise au cas de param` etres multi-dimensionnels. Exemple i) Lois normales d ecart-type connu, = 1. Un seul param` etre, lesp erance m. La vraisemblance (ici la densit e de probabilit e de l echantillon, puisque lon est dans le cas continu) est : L(x, m) = Remarquons que L(x, m) ln L(x, m) = 0 = 0, m m o` u 1 n ln L(x, m) = ln 2 2 2 donc ln L(x, m) = 0 m
n i=1 n i=1

1 1 [ exp { (xi m)2 }]. 2 2 i=1

(xi m)2 ;
n

1 (xi m) = 0 m = n

xi = x.
i=1

Lestimateur cherch e est donc X . ii) La famille de toutes les lois normales a deux param` etres : m et 2 (la variance). Le logarithme de la vraisemblance est : n n 1 ln L(x, m, 2 ) = ln 2 ln 2 2 2 2 2
n i=1

(xi m)2

les conditions du premier ordre pour un maximum de ln L(x, m, 2 ) sont que ses d eriv ees partielles doivent etre nulles : 1 L(x, m, 2 ) = 2 m 5
n i=1

(xi m) = 0

L(x, m, 2 ) n 1 1 = + 4 2 2 2 2 on en d eduit : m= 1 n
n

n i=1

(xi m)2 = 0 ;

xi = x ; 2 =
i=1

1 n

n i=1

(xi x)2 = s2 .
1 n n 2 i=1 (Xi X )

Les estimateurs cherch es sont X pour m et S 2 =

pour 2 .

Les estimateurs du maximum de vraisemblance ont les propri et es suivantes (sous certaines conditions de r egularit e) : ils sont convergents, asymptotiquement ecaces et, de plus, sont des fonctions des estimateurs exhaustifs. 2.1.4 Intervalles de conance

Lestimateur T dun param` etre lui attribue, au vu des observations ; il est important davoir une id x, une valeur ee de la pr ecision de cette estimation ; cest ce ` a quoi servent les intervalles de conance : Un intervalle de conance de niveau 1 (on dit aussi : ` a 100(1 )%) est un intervalle al eatoire (car ses bornes sont des fonctions de T ), ]a(T ), b(T )[ ayant une probabilit e 1 de contenir la valeur vraie du param` etre (quelle quelle soit), donc tel que : , P (]a(T ), b(T )[ ) = 1 (Noter que cest qui est xe et les bornes de lintervalle qui sont al eatoires). On construit g en eralement des intervalles de conance de la fa con suivante : Pour chaque valeur de , on choisit des nombres B ( ) et A( ) tels que P (T ]B ( ), A( )[) = 1 . On les prend le plus souvent de mani` ere ` a avoir . P (T B ( )) = P (T A( )) = 2 On prend alors pour a et b les fonctions inverses de A et B , do` u: ]a(t), b(t)[ t ]B ( ), A( )[ et donc, , P (]a(T ), b(T )[ ) = 1 (noter que pour chaque , l ev enement {t :]a(t), b(t)[ } est di erent).

A() t

B ()

a(t)

b(t)

Fig. 1 Intervalles de conance Exemple Lois normales d ecart-type connu, . Le param` etre est lesp erance m ; son estimateur X suit une loi normale m N (m, ); Y = X suit la loi normale centr ee r eduite et il y a donc, quel n / n que soit m, une probabilit e 1 que
< X < m + u m u n n 2 2 2

o` u u est d eni par P (Y < u )=1 2 2 do` u lintervalle de conance

X u < m < X + u n n 2 2

2.2

Tests dhypoth` eses en statistique param etrique classique

Lensemble des valeurs du param` etre est partitionn e en deux sousensembles 0 et 1 . On appelle h ypoth` eses les assertions H0 = 0 et H1 = 1 . Une hypoth` ese Hi est dite s imple lorsque i est un singleton ; elle est dite m ultiple sinon. Un t est entre deux hypoth` eses H0 et H1 est une r` egle de d ecision, , bas ee sur les observations : Lensemble des d ecisions possibles est D = {d0 , d1 }, avec d0 = accepter H0 et d1 = accepter H1 = rejeter H0 .

Un test d eterministe est donc une application x (x) de Rn dans D . Il est donc caract erisable par sa r egion critique W = {x Rn : (x) = d1 } ; la n r egion compl ementaire R \W etant la r egion dacceptation. On notera TW un tel test. On est en fait amen e` a utiliser aussi des tests al eatoires, o` u (x) est un nombre de [0, 1], la probabilit e daccepter H1 si x est observ e. Il faut alors distinguer la r egion critique W , o` u H1 est accept ee (avec probabilit e 1), la r egion dacceptation A o` u cest H0 qui est accept ee (avec probabilit e 1) et la zone compl ementaire de W A, o` u le choix est al eatoire ; en g en eral, cette derni` ere zone correspondra ` a la fronti` ere ente W et A et la probabilit e daccepter H1 y aura une valeur constante. Tout test peut amener ` a accepter une hypoth` ese alors que cest lautre qui est vraie. On appelle erreur de premi` ere esp` ece le fait de rejeter lhypoth` ese H0 alors quelle est vraie et erreur de deuxi` eme esp` ece le fait de rejeter lautre hypoth` ese, H1 , alors que celle-ci est vraie. Les co uts associ es aux erreurs sont d ecrits par une fonction de perte w ; w(d, ) est le co ut de prendre la d ecision d quand la valeur vraie du param` etre est : w est donn ee par le tableau suivant : valeur vraie de 0 1 2.2.1 d0 = accepter H0 0 w(d0 , ) d1 = accepter H1 w(d1 , ) 0

Tests entre hypoth` eses simples

0 = {0 } ; 1 = {1 }. Etant donn e un test entre hypoth` eses simples : - on appelle risque de premi` ere esp` ece et note , la probabilit e de commettre lerreur de premi` ere esp` ece ; on a donc dans le cas continu (formule analogue dans le cas discret) : = P (x W/ = 0 ) = W L(x, )dx, si cest un test d eterministe ; eatoire ; = W L(x, 0 )dx + [W A]c (x)L(x, 0 )dx, si cest un test al - et on appelle risque de deuxi` eme esp` ece et note , la probabilit e de commettre lerreur de deuxi` eme esp` ece ; do` u, toujours dans le cas continu : = P (x A/ = 1 ) = A L(x, )dx, si cest un test d eterministe ; eatoire ; = A L(x, 1 )dx + [W A]c [1 (x)]L(x, 1 )dx, si cest un test al Il est clair qu et varient en sens inverse lun de lautre ; un test doit toujours r ealiser un compromis entre les deux risques. Souvent, H0 d esigne une hypoth` ese privil egi ee (par exemple, que la machine que lon contr ole ne sest 8

pas d er egl ee), v eri ee jusqu` a pr esent et que lon naimerait pas abandonner a tort. On impose alors un seuil 0 - valeur que ne doit pas d ` epasser et cherche un test minimisant sous cette contrainte ; minimiser , cest maximiser = 1 , que lon appelle la puissance du test. Un r esultat c el` ebre, connu sous le nom de lemme de Neyman et Pearson dit quil existe toujours un test (al eatoire) le plus puissant de seuil donn e 0 et que cest un test du rapport de vraisemblance, c-` a-d de la forme
L(x,0 ) L(x,1 ) L(x,0 ) L(x,1 )

> k x A (accepter H0 ) ;

L(x,0 ) L(x,1 )

= k (x) = (accepter H0 avec probabilit e 1 et H1 avec probabilit e ),

< k x W (rejeter H0 ) ;

les nombres k et etant d etermin es de fa con unique par la relation = 0 . Exemple Test de moyenne dune loi normale d ecart-type connu, . H0 : X0 suit la loi N (m0 , ) ; H1 : X0 suit la loi N (m1 , ). Le rapport de vraisemblance sexprime en fonction de la statistique exhaustive x :
L(x,0 ) L(x,1 )

= exp( 2n x m0 )2 ( x m1 )2 ]) 2 [(

L(x,0 ) do` u, L equivalent ` a ( x m0 )2 ( x m1 )2 = [m1 m0 ][2 x (x,1 ) > k est m1 m0 ] < k et donc ` ax < k si m1 > m0 et x > k si m1 < m0 (pour les valeurs ad equates de k et k .) On rejette donc H0 lorsque x est grand dans le cas o` u m1 > m0 et lorsquil est trop petit dans le cas o` u m 1 < m0 .

2.2.2

Tests entre hypoth` eses multiples

Il ny a pas de r esultat g en eral simple ; voyons cependant le cas o` u H0 est simple et H1 est multiple : H0 : = 0 ; H1 : > 1 Pour chaque test, la probabilit e derreur de seconde esp` ece et la puissance varient avec 1 ; un test donn e peut donc etre plus puissant quun autre et moins puissant pour une autre test de m eme seuil pour une valeur 1 valeur 1 . Lehmann a montr e que si le rapport de vraisemblance est une fonction monotone dune statistique donn ee, alors il existe un test uniform ement le plus puissant (U P P ), c-` a-d tel que, pour tout 1 1 , sa puissance (1 ) est sup erieure ou egale ` a celle de tous les autres tests de m eme seuil.

2.3

Les tests dajustement

Les tests dajustement ont pour issue lacceptation ou le rejet de lhypoth` ese que l echantillon observ e est tir e dune certaine loi. Lhypoth` ese alternative ne pr ecise pas de quelle autre loi il aurait pu etre tir e. Un test dajustement est donc un exemple de test non-param etrique. Tr` es souvent, la loi test ee a et e s electionn ee, lors dune etape pr ec edente, au sein dune famille de lois d ependant de param` etres par estimation de de ces param` etres. On rencontre fr equemment le cas o` u l echantillon provient de n tirages al eatoires (avec remise) dans une population qui se r epartit en k classes (= cat egories) (exemple : les six classes associ ees au lancer dun d e). 2.3.1 loi multinomiale et loi du

Supposons dabord que lon connaisse la proportion dindividus de la population appartenant ` a chaque classe et donc la probabilit e pl , ` a chaque tirage, que lindividu tir e appartienne ` a la classe l (l = 1, .., k). Notons Nl la variable (al eatoire) qui a pour valeur nl , nombre dindividus tir es qui appartiennent ` a la classe l. La loi du k-uple (N1 , .., Nl , .., Nk ) est une loi multinomiale de param` etres (p1 , .., pl , .., pk ), dont les probabilit es el ementaires sont donn ees par p(n1 , .., nl , .., nk ) = P (N1 = n1 , .., Nl = nl , .., Nk = nk ) = n! nk l pn1 .. pn l .. pk n1 ! .. nl ! .. nk ! 1 Cette loi g en eralise la loi binomiale qui correspond au cas k = 2.
2 = On d emontre que la suite de variables D( n) k (Nl n.pl ) l=1 n.pl
2

tend en

a (k 1) degr es loi, lorsque n , vers une loi du 2 k 1 (loi du chi deux ` de libert e). La loi du 2 es de r variables ind ependantes r est la loi de la somme des carr et de m eme loi, la loi normale centr ee r eduite N (0, 1) ; son esp erance vaut r et sa variance 2r . Sa densit e en x > 0 vaut g(y ) = y 2 2 p/21 1 )(y ) . exp ( 2 2p/2 (p/2)

2.3.2

Test dajustement du

Ce test est fond e sur lid ee suivante : si le k-uple observ e (n1 , .., nl , .., nk ) est bien tir e selon la loi binomiale de param` etres (p1 , .., pl , .., pk ), alors la 10

2 valeur r esultante de d2 , r ealisation de D( epart peu de chance n) avait au d davoir une valeur elev ee ; si donc la valeur observ ee est elev ee, lhypoth` ese faite est peu plausible ; plus pr ecis ement, on utilise le r esultat asymptotique pr ec edent ; etant donn e un seuil , par exemple = 0.1, on lit dans une 2 2 2 table la valeur d2 telle que P r (2 k 1 > d ) = ; si d < d , on accepte lhypoth` ese que la loi de (N1 , .., Nl , .., Nk ) est bien celle que lon a suppos ee ; on rejette cette hypoth` ese dans le cas contraire. Le choix de la valeur de reste un peu arbitraire ; on prend souvent = 0.05 ; on peut le prendre dautant plus petit que la taille de l echantillon est grande et que le co ut derreur de premi` ere esp` ece (rejeter ` a tort lhypoth` ese) est plus elev e.

2.3.3

Exemple des d es

Reprenons lexemple des deux d es lanc es 360 fois. l nl npl


(nl npl )2
(nl npl )2 npl

2 7 10 9 0.9

3 25 20 25 1.25

4 24 30 36 1.2

5 47 40 49 1.225

6 58 50 64 1.28

7 52 60 64 1.067

8 49 50 1 0.02

9 34 40 36 0.9

10 37 30 49 1.633

11 16 20 16 0.8

12 11 10 1 0.1

2 Do` u d2 = 10.375 . Pour = 0.60 on trouve d ej` a d2 = 10.473 > d . Lhypoth` ese devrait donc etre accept ee pour tout choix de inf erieur ou egal ` a 0.60 . En fait, sous cette hypoth` ese, il y a plus de 40 chances sur 100 dobtenir un ecart d2 au moins aussi grand que celui observ e ; l ecart observ e ne peut sure ` a soup conner que lhypoth` ese est fausse.

2.4

Test dind ependance du 2

Nous avons introduit comme indice de d ependance dun tableau de contingence la quantit e 2 =
r i=1 s j =1

(nij

ni. n.j 2 n ) ni. n.j n

a-d comme Cette caract eristique suit approximativement une loi de 2 k , c-` nous lavons vu, la loi de la somme des carr es de k variables ind ependantes et de loi N (0, 1). Le nombre k, nombre de degr es de libert e, correspond au nombre de param` etres ind ependants, c-` a-d au nombre d el ements du tableau auxquels on peut attribuer des valeurs arbitraires une fois les marges du tableau x ees. Dans un tableau ` a r lignes et s colonnes, il y a ainsi k = (r 1)(s 1) degr es de libert e. Le test est alors le suivant : etant donn e un seuil , par exemple = 0.1, 2 2 2 2 on lit dans une table la valeur x telle que P r (2 k > x ) = ; si > x , on rejette lhypoth` ese dind ependance des deux variables du tableau (= on 11

consid` ere les variables comme li ees) ; on accepte cette hypoth` ese dans le cas contraire. Exemple du m edicament Reprenons lexemple m edical donn e pr ec edemment. Dans le cas du tableau 3 4 (2 m edicaments et le placebo), il y a k = 6 degr es 2 2 de libert e. Pour = 0.05, x6 = 12.6927 ; comme on trouve = 17.50, on rejette lhypoth` ese dind ependance. Dans le cas du tableau 2 4 (2 m edicaments), il y a k = 3 degr es de libert e. 2 2 Pour = 0.05, x3 = 7.815 ; comme on trouve = 1.48, on accepte lhypoth` ese dind ependance : les deux m edicaments ont en fait des eets tr` es voisins.

2.5

Tests de corr elation des rangs de Spearman et de Kendall

Dans le cas de deux variables ordinales nous avons introduit deux indices de corr elation, le coecient de Spearman :
i=1 rS = 1 n(n 1)2 ,

di 2

o` u di = ri ti est la di erence des rangs dun m eme objet i, et le coecient de Kendall = n(n1) , o` u S est la di erence entre le nombre de classements concordants et de classements discordants dans lensemble de tous les couples dobjets. Les distributions des variables al eatoires RS ` a valeurs rS et T ` a valeurs ont et e tabul ees et lon consid erera les classements comme ind ependants : dans le test de Spearman, lorsque | rS |< k ; dans le test de Kendall, lorsque | |< t ; les classements seront consid er es comme corr el es et concordants pour, respectivement, RS > k et T > k ; enn comme corr el es et discordants pour, respectivement, RS < k et T < k. Exemple des oenologues Reprenons lexemple des deux oenologues, o` u pour les classement des douze vins de table nous avons trouv e un coecient de Spearman rS = 0.60 et un coecient de Kendall = 0.36. Avec = 0.05, on trouve que P r (| RS |> 0.648) = et que P r (| T |> 0.49) = . Puisque rS = 0.60 < 0.648 et = 0.36 < 0.49 les deux tests concluent ` a lind ependance.
2S

La statistique bay esienne

La sp ecicit e du mod` ele statistique bay esien (par rapport au mod` ele statistique classique) tient au fait que tout el ement dincertitude y est evalu e sous une forme probabiliste. 12

Exemple introductif Une personne de votre connaissance vous propose de jouer ` a Pile ou Face en pariant sur Pile : gain de 10 euros si Pile, perte de 10 euros si Face, avec une pi` ece de monnaie quelle sort de sa poche, o` u vous savez quelle navait que deux pi` eces, que vous avez d ej` a eu la possibilit e de manipuler ; vous avez pu les jeter mille fois chacune, si bien que, vous fondant sur les fr equences de Pile et de Face observ ees, vous estimez quavec la premi` ere pi` ece la probabilit e de Pile est P1 (Pile ) = 0.6 alors quavec la deuxi` eme pi` ece elle est P2 (Pile ) = 0.45 (les deux pi` eces sont toutes deux tordues, mais dans des sens oppos es). Quelle est votre esp erance de gain si vous acceptez de jouer ? Si vous consid erez quil y a une probabilit e 1 pour que la pi` ece utilis ee soit la premi` ere pi` ece et donc 2 = 1 1 pour que ce soit la deuxi` eme, votre esp erance de gain est : [1 0.6 + 2 0.45] 10 + [1 0.4 + 2 0.55] (10) = 21 2 = 31 1 1 . Ceci peut etre une incitation et est donc positive si et seulement si 1 > 3 a accepter de jouer dans ce cas et refuser de jouer sinon. ` Mais do` u viennent 1 et 2 ? Il ny a pas de donn ees fr equentistes permettant de les estimer. Peut- etre pensez-vous que cette personne va choisir une des etre que cest un ami, qui souhaite pi` eces au hasard : 1 = 2 = 1 2 ; ou peut- vous faire gagner et va choisir plut ot la premi` ere pi` ece ; ou au contraire un ennemi qui choisira plut ot la seconde ; est-ce susant pour entrainer que vous devez mettre des probabilit es bien d enies satisfaisant 1 > 2 dans le premier cas, 1 < 2 dans le second ? La th eorie des probabilit es subjectives arme que oui.

3.1

La th eorie des probabilit es subjectives

Cette th eorie, due ` a De Finetti, part de lid ee que si vous pensez quun ev enement A a une probabilit e , alors : i) vous devez accepter de parier sur l ev enement A si le gain net (= gain brut - mise) possible G et la mise M vous orent une esp erance de gain positive ou nulle : G 1 G + (1 ) (M ) 0 G 1 M M ; et ii) vous devez accepter de recevoir (en vous pla cant en position de bookmaker) tout pari sur l ev enement A pour lequel votre perte nette possible G (si le parieur gagne) et votre recette certaine, la mise M, vous orent une esp erance de gain positive ou nulle : G 1 (G) + (1 ) M 0 G 1 M M . G La seule valeur du rapport M pour laquelle vous acceptez aussi bien de pa G = 1 rier que de prendre le pari v erie donc M et permet de retrouver la valeur de la probabilit e que vous accordez ` a l ev enement A, qui est donn ee . par = MM +G De Finetti fait alors lhypoth` ese que pour tout ev enement A il existe une G valeur-limite du rapport M pour laquelle vous etes indi erent entre parier et 13

ne pas parier sur A ; par d enition, (A) = MM e subjective +G est la probabilit que vous accordez ` a A. Il est clair que 0 (A) 1. Ce qui est moins evident, cest que les probabilit es subjectives soient additives. De Finetti pr esente largument suivant en faveur de cette propri et e: Supposons quil existe des ev enements incompatibles A et B pour lesquels vos probabilit es subjectives satisfont : (A)+ (B ) > (AB ) ; par exemple : 4 1 et (A B ) = 10 . Quelquun peut alors vous proposer de, (A) = (B ) = 4 simultan ement, - prendre un pari o` u il mise 18 (euros) pour un gain net de 22 si (A B ) se r ealise ; - parier vous-m eme avec lui sur A en misant 10 pour un gain net de 31 si A se r ealise et sur B avec m eme mise, 10, et m eme gain, 31, cette fois si cest B qui se r ealise. Vous accepterez ces trois propositions puisque
1 1 4 1 4

22 18

<

3 2

4 1 10 4 10

et

31 10

>3=

; or, vous allez subir une perte de 1 euro quoi quil arrive, comme le (A B )c +18 -10 -10 -1

montre le tableau ci-dessous : pari accepte pari sur A pari sur B gain alge brique A -22 31 -10 -1 B -22 -10 31 -1

Il serait aussi facile dexhiber trois propositions amenant egalement ` a une perte certaine dans le cas o` u il y aurait eu sur-additivit e, par exemple : 1 6 (A) = (B ) = 4 et (A B ) = 10 (trouvez trois paris ad equats). Do` u la conclusion de De Finetti : Un d ecideur qui ne se comporte pas en toute situation de choix comme si il attribuait des probabilit es (subjectives) a ` tous les ev enements nest pas rationnel, car il est alors possible a ` un manipulateur de le placer dans des situations de paris (multiples) o` u il perdra de largent a ` coup s ur.

3.2

La formalisation bay esienne

Dans le mod` ele bay esien (du nom du probabiliste anglais Bayes) les ev enements sont des parties dun ensemble produit X , o` u: - X est lespace des observations, x ; x est le plus souvent un echantillon ; - est lespace des param` etres, , caract eristiques concr` etes ou abstraites intervenant dans le probl` eme et sur lesquelles les observations apportent de linformation. La famille des ev enements est dot ee dune loi de probabilit e, ; les couples (x, ) sont donc les r ealisations dun couple de variables al eatoires (X, ). 14

- dans le cas discret, la loi est d etermin ee par les probabilit es el ementaires (x, ) = (X = x, = ) ; on peut en d eriver par sommation les lois marginales de X et : (x) = (X = x) = (x, ) ( ) = ( = )) = xX (x, ) et les lois conditionnelles de X si et si x : (x,) (x,) (x/ ) = (X = x/ = ) = () (/x) = ( = /X = x) = (x) ; en fait, les donn ees primitives pourront aussi bien etre constitu ees de la loi marginale de et des lois conditionnelles de X si , pour tout , comme dans lexemple donn e ci-apr` es. - dans le cas continu, la loi est d etermin ee par la densit e (de probabilit e) jointe (x, ) , dont on peut d eriver, par int egration, les densit es, not ees egalement (x) et ( ) des lois marginales de X et : (x) =

(x, )d

( ) =
X

(x, )dx

ainsi que celles des lois conditionnelles de X si et si x : (/x) = (x) . (x/ ) = () La loi conditionnelle de X si repr esente la loi quaurait l echantillon si etait la valeur vraie du param` etre ; cest donc la (fonction de) vraisemblance de l echantillon, que nous avons d ej` a rencontr ee en statistique classique, et pour laquelle on utilise le plus souvent lune des deux notations suivantes (dans le cas continu, o` u cest une densit e, comme dans le cas discret, o` u cest une probabilit e el ementaire) : L (x) = L(x, ) = (x/ ) [L est linitiale de likelihood=vraisemblance en anglais] Nous supposerons toujours que lon observe un echantillon ind ependant identiquement distribu e en abr eg e echantillon i.i.d., ce qui signie que lobservation x = (x1 , .., xi , .., xn ) est la r ealisation dune variable n-dimensionnelle X = (X1 , .., Xi , .., Xn ) dont les composantes sont mutuellement ind ependantes a valeur donn ` ee du param` etre : n L (x) = n P r ( X = x i i / ) (cas discret), L (x) = i=1 i=1 p(xi / ) (L , p densit es, cas continu). La loi marginale de d ecrit lid ee que lon se fait de cette variable avant observation : on lappelle loi a priori du param` etre ; en revanche, la loi conditionnelle de si x exprime ce que lon pense de cette m eme variable apr` es avoir observ e x : on lappelle loi a posteriori du param` etre. La relation entre les lois a priori et a posteriori du param` etre est fournie directement par la formule de Bayes dans le cas discret : (/x) =
L (x) () (x) (x,) (x,)

=
15

L (x) ( )

L (x) ()

dans le cas continu, on a la formule analogue pour les densit es : (/x) =


L (x) () (x)

L (x) () . L (x) ( ) d

exemple introductif (suite) Lensemble des param` etres na que deux el ements : = {1 , 2 } : 1 = biais pour P ile ; 2 = biais pour F ace. 1 On prend pour probabilit es a priori : (1 ) = 2 3 ; (2 ) = 3 . Si lon observe les r esultats de 5 lancers successifs de la pi` ece, lespace 5 des observations est X = {P ile, F ace} ; supposons que ces r esultats sont ind ependants et qu` a chaque lancer : P r1 (Pile ) = 0.6 , do` u P r1 (Face ) = 0.4 et P r2 (Pile ) = 0.45 , do` u P r1 (Face ) = 0.55. Si lon observe, par exemple, x = (F ace, F ace, F ace, P ile, F ace) les vraisemblances seront : L1 (x) = [0.6] [0, 4]4 et L2 (x) = [0.45] [0.55]4 . Do` u la loi a posteriori : (1 /x) = (2 /x) =
2 L1 (x) (1 ) [0.6][0.4]4 3 10 240 = = 106 (x) , (x) (x)

ce qui donne : (1 /x) = 0.428 ; (2 /x) = 0.572. Les observations ont fait basculer les croyances initiales concernant la valeur du param` etre en faveur de 2 .

1 L2 (x) (2 ) [0.45][0.55]4 3 13 725 = 106 (x) , (x) (x) 23 965 avec (x) = L1 (x) (1 ) + L2 (x) (2 ) = 106 ,

3.3

Le mod` ele d ecisionnel bay esien

Le mod` ele probabiliste pr ec edent nest quune partie dun mod` ele d ecisionnel, o` u sont pris en compte les co uts pouvant r esulter des d ecisions choisies au vu de linformation. Le concept de base est celui de fonction de co ut : etant donn e un ensemble de d ecision possibles, D , la fonction de co ut est une application w : D R, o` u w(d, ) est le co ut r esultant de la d ecision d lorsque la valeur du param` etre est .

Exemples 1) Probl` eme de classication : D = {d1 , .., dk , .., dn } et = {1 , .., j , .., n } sont associ es ` a un ensemble de n classes ; dk signie lindividu observ e est rang e dans la classe k alors que le param` etre vaut j lorsque la vraie classe de lindividu est la classe j ; une fonction de co ut w(dk , j ) = 1, si k = j, = 0 si k = j, correspond ` a une p enalit e constante pour toute erreur de classication. 2) Diagnostic m edical : cest aussi un probl` eme de classication, mais les 16

co uts derreur de diagnostic peuvent etre tr` es di erents ; = {1 , 2 } ; 1 = maladie grave ; 2 = maladie be nigne ; on aurait alors : w(d1 , 1 ) = w(d2 , 2 ) = 0 ; w(d2 , 1 ) >> w(d1 , 2 ) > 0, car mal soigner une maladie grave parce quon la fait une erreur de diagnostic co ute beaucoup plus, m edicalement et humainement, que mal soigner une maladie b enigne parce que lon a fait lerreur inverse. 3) Estimation : D = = R. Ici, se tromper sur la valeur du param` etre, c-` a-d d ecider que cest d alors que la valeur vraie est , entraine un co ut croissant avec limportance de lerreur : w(d, ) =| d | (co ut egal ` a l ecart absolu) ; w(d, ) = (d )2 (co ut egal ` a l ecart quadratique). Crit` ere de d ecision et fonctions de risque On cherche a ` minimiser la perte moyenne, c-` a-d lesp erance math ematique de la perte. En labsence dobservation, il faut choisir une d ecision d dans D qui minimise, dans le cas discret : W (d) =

( )w(d, ).

W (d) est appel e le risque a priori. En cas dobservation, la d ecision prise va pouvoir d ependre de lobservation, r ealisation x de la variable X ; on doit donc choisir une r` egle de d ecision : X D ; si x est observ e, la d ecision prise est d = (x). La perte entrain ee par la r` egle sera w((x), ) lorsque x sera observ e et que sera la valeur du param` etre, ce qui, dans le cas discret, arrivera avec la probabilit e (x, ) ; do` u une esp erance de perte r () =
xX

(x, ).w((x), )

r () est appel ee le risque bay esien. Loptimisation du risque bay esien, c`-d la d a etermination de la r` egle de d ecision optimale, est facilit ee par la remarque que r () peut encore ecrire r () =
xX

(x). (/x).w((x), ) =
xX

(x)

(/x).w((x), )

La r` egle de d ecision optimale sobtient donc en minimisant par rapport ` a d, pour chaque x de X , le risque a posteriori si x W (d/x) =

(/x).w(d, ),

et en prenant (x) = d , o` u d est la meilleure d ecision trouv ee. Mieux, en pratique, on na besoin de connaitre la r` egle de d ecision optimale que lorsque certaines options doivent etre prises avant observation (choix 17

de lexp erience, de la taille de l echantillon, etc..) ; dans les autre cas, on peut attendre lobservation et se contenter doptimiser le risque a posteriori W (d/x0 ) pour lobservation x0 recueillie. En statistique classique, o` u il ny a pas de probabilit es sur , la fonction suivante, R, simplement appel ee (fonction de) risque, joue un r ole important : R () = (x/ ).w((x), ) = L (x).w((x), ).
xX xX

Dans le cas continu, les expressions analogues font intervenir des densit es de probabilit es au lieu de probabilit es el ementaires. risque a priori : W (d) = w(d, ). ( ) d. risque a posteriori si x : W (d/x) = w(d, ). (/x) d risque bay esien : r () = X w((x), ). (x, ) dx d risque : R () = X w((x), ).L (x) dx. On rencontre aussi des cas mixtes o` u lune des deux variables X, est discr` ete et lautre continue ; ladaptation des expressions des diverses fonctions de risque est evidente.

3.4
3.4.1

Lexhaustivit e en statistique bay esienne


Statistique

Une statistique, T , est une fonction de l echantillon X ; elle prend une valeur t = f (x) lorsque l echantillon a la valeur x, ce quon note T = f (X ) ; T est donc elle-m eme al eatoire, sa loi de probabilit e d erivant de celle de X par 1 P r (T = t) = P r (X = f (t)) (cas discret) ou P r (T I ) = P r (X = f 1 (I )) (cas continu). Exemples de statistiques : la moyenne (empirique) de l echantillon, X = n 1 1 2 2 echantillon S = n n i=1 Xi ; la variance (empirique)de l i=1 (Xi X ) . n 3.4.2 Statistique exhaustive

Une statistique T = f (X ) est exhaustive lorsque la loi a posteriori du param` etre ne d epend de la valeur de x que par linterm ediaire de t : f (x) = f (x ) = (/x) = (/x ), ce qui signie que toute linformation que lobservation x peut apporter sur le param` etre est contenue dans son r esum e t. Le r esultat suivant, dit th eor` eme de factorisation, permet de caract eriser lexhaustivit e: T = f (X ) est exhaustive si et seulement si la vraisemblance se factorise sous la forme : L (x) = g(f (x), ).h(x). On retrouve donc la propri et e qui sert de d enition de lexhaustivit e en statistique classique

18

3.4.3

Familles conjugu ees de distributions

Lorsquil existe une statistique exhaustive T de dimension ind ependante de la taille n de l echantillon (par exemple, uni-dimensionnelle comme X ou bi-dimensionnelle comme (X, S 2 )), on a la propri et e suivante : A la famille des lois de probabilit es p (t), de T [donc ` a celles des L (x), de X ], on peut associer une famille de lois dite conjugu ee de la premi` ere, telle que si la loi a priori ( ) appartient ` a cette famille, alors toute loi a posteriori (/x) lui appartient egalement. Ceci est particuli` erement int eressant lorsque cette famille conjugu ee, tout en ne d ependant elle-m eme que dun ou deux param` etres, contient une approximation acceptable de la v eritable loi a priori. Exemples de familles conjugu ees : X tir e dune loi : de P oisson normale unif orme lois conjugu ees : Gamma normales de P areto

La formule de Bayes permet de v erier si deux familles sont eectivement conjugu ees et de calculer la valeur des param` etres de (/x) connaissant celle des param` etres de ( ).

3.5
3.5.1

Tests dhypoth` eses en statistique bay esienne


Tests dhypoth` eses

Comme en statistique classique, un test entre deux hypoth` eses est un probl` eme de d ecision statistique, avec D = {d0 , d1 }, o` u d0 = accepter H0 et d1 = accepter H1 , associ e` a une fonction de perte du type suivant : valeur vraie de 0 1 d0 = accepter H0 0 w(d0 , ) d1 = accepter H1 w(d1 , ) 0

Contrairement au cadre classique, il sut, en statistique bay esienne, de consid erer des tests d eterministes. Remarquons quun test dhypoth` eses peut etre vu comme un probl` eme de classication o` u il ny aurait que deux classes. 3.5.2 Tests entre hypoth` eses simples

0 = {0 } ; 1 = {1 }. La meilleure d ecision a posteriori, apr` es observation de x, est celle qui minimise le risque a posteriori W (d/x) = (0 /x).w(d, 0 ) + (1 /x).w(d, 1 ). 19

Do` u, d0 est pr ef erable ou equivalent ` a d1 (1 /x).w(d0 , 1 ) (0 /x).w(d1 , 0 ). Par la formule de Bayes, il vient : (0 /x) =
L0 (x). (0 ) L (x). (1 ) , (1 /x) = 1 (x) ; (x) L (x) (1 ).w(d0 ,1 ) . (0 ).w(d1 ,0 )

do` u, d0 est pr ef erable ou equivalent ` a d1 L 0 (x) 1

Lhypoth` ese H0 est dautant plus facilement accept ee que le second membre de lin egalit e est plus petit, donc que sa probabilit e a priori est plus elev ee et que le co ut de laccepter ` a tort est plus faible (relativement au co ut de lautre type derreur). 3.5.3 Tests entre hypoth` eses multiples

On proc` ede encore ` a la comparaison des risques a posteriori ; il ny a pas de r esultat g en eral simple.

3.6
3.6.1

Estimation ponctuelle en statistique bay esienne


Estimation ponctuelle

Les probl` emes destimation ponctuelle sont ceux o` u D = , c-` a-d o` u lon cherche ` a estimer la valeur du param` etre. Comme nous lavons vu, dans le cas uni-dimensionnel, R, la valeur de la perte est souvent prise egale : - soit ` a celle de l ecart absolu entre valeur estim ee et valeur vraie du param` etre : w(d, ) =| d |, - soit ` a celle du carr e de cet ecart : w(d, ) = (d )2 . Dans le cas pluri-dimensionnel, Rn , on prend g en eralement w(d, ) = (d )A(d ), o` u A est une matrice (n, n) d enie positive. 3.6.2 Cas de la perte quadratique et dun param` etre r eel

Cest une propri et e g en erale que la variance est l ecart quadratique moyen minimum ; do` u, dans le cas discret : i) en labsence dinformation, le risque a priori W (d) =

( ).(d )2 = E ((d )2 )

20

est minimum pour d = E ( ), esp erance a priori de et vaut V ar ; ii) apr` es observation de w, le risque a posteriori W (d/x) =

(/x).(d )2 = E ((d )2 /x)

est minimum pour d = E (/x), esp erance a posteriori de , et vaut V ar (/x). Dans le cas continu, les r esultats sont les m emes ; les expressions du risque a priori et a posteriori y sont respectivement : W (d) = E ((d )2 ) = W (d/x) = E ((d )2 /x) = (d )2 . ( ) d et (d )2 . (/x) d .

3.7

Retour ` a la statistique classique

La statistique classique ore un mod` ele moins riche que la statistique bay esienne ; cependant les fonctions de risque y ont un sens et permettent dintroduire un concept important : ladmissibilit e. 3.7.1 Fonctions de risque

Comme nous lavons vu, ` a toute r` egle de d ecision possible, , on peut associer le risque, c-` a-d la perte moyenne, R (), quelle entra ne pour chaque valeur du param` etre ; son expression est, dans le cas discret, R () =
xX

L (x).w((x), )

et, dans le cas continu, R () =


X

w((x), ).L (x) dx.

3.7.2

Admissibilit e

On peut alors introduire lordre partiel suivant sur les r` egles de d ecision : La r` egle de d ecision domine la r` egle de d ecision lorsque R () R ( ), et 0 tel que R () <R ( ). Une r` egle de d ecision est dite admissible lorquaucune autre r` egle ne la domine ; si, de plus, toute autre r` egle est domin ee par une admissible, on dit que lensemble des admissibles est complet. Lorsque lensemble des admissibles est complet il semble naturel d ecarter a priori toute autre r` egle et de choisir une r` egle dans cet ensemble. 21

3.8

Comparaison entre statistique bay esienne et statistique classique sur un exemple

Le probl` eme de la punaise Lorsquon lance une punaise et quelle retombe sur une table, elle peut simmobiliser de deux fa cons : - sur le dos, la pointe vers le H (aut) ev enement X0 = H ; - de travers, la pointe vers le B (as) ev enement X0 = B . Vous avez la possibilit e de lancer n fois la punaise et observer ` a chaque fois le r esultat. Au vu de vos observations, quallez-vous pr edire concernant le `me lancer ? A quelle cote seriez-vous pr r esultat du (n + 1)e et ` a parier sur chacun des r esultats possibles ? Lapproche de la statistique classique Le r esultat de chaque lancer i {1, 2, .., n} est la r ealisation dune variable al eatoire Xi , bivalente avec Xi = {H, B }, de param` etre , ind ependant de i : P r (Xi = H ) = ; P r (Xi = B ) = 1 . On suppose quil existe une valeur vraie, mais inconnue, 0 de ; tout ce que lon sait, cest que = [0, 1]. On admet en outre que les r esultats dun lancer ne sont pas inuenc es par les r esultats des autres lancers ; autrement dit, que les variables Xi , composantes de l echantillon (= variable al eatoire ` a n dimensions) X = (X1 , .., Xi , .., Xn ) sont ind ependantes dans leur ensemble. X est donc un echantillon i.i.d. et sa loi, qui d epend de , a pour probabilit e dun ev enement el ementaire (cest une suite de n H ou B ; par exemple, pour n = 10, BBHBHHHBHH ), c-` a-d pour vraisemblance : L (x) = p (x1 , .., xi , .., xn ) = h .(1 )b , avec h = #{i : xi = H } et b = n h = #{i : xi = B } [N.B. : ce nest pas la probabilit e davoir h des xi egaux ` a H et les b autres egaux ` a B , qui est egale ` a (h). h .(1 )b ] Le logarithme de la vraisemblance est ln L(x, ) = h ln + b ln(1 ). Comme h b h h ln L(x, ) = = 0 = = , 1 h+b n lestimateur du maximum de vraisemblance, T , a pour valeur t = n ; cest echantillon par linterm ediaire de la donc une variable T = n , fonction de l variable h = #{i : Xi = H }. T est exhaustif, convergent, sans biais et de variance minimum dans cette classe.
h h
n

22

`me lancer est alors que : La pr ediction pour le (n + 1)e

h b ; P r (Xn+1 = B ) = 1 t = . n n On serait pr et ` a parier sur H si gain net G et mise M satisfont P r (Xn+1 = H ) = t = G.P r (Xn+1 = H ) M.P r (Xn+1 = B ) 0 G h b G b M 0 . n n M h

Lapproche de la statistique bay esienne La statistique bay esienne ne consid` ere initialement que les ev enements li es aux n + 1 lancers (il ny a pas encore de param` etre) et suppose quil existe une probabilit e subjective sur tous ces ev enements : `me lancer ou B au 5e `me lancer a par exemple, l ev enement A = H au 2e une probabilit e P (A). On notera p(x1 , .., xi , .., xn+1 ) pour P (X1 = x1 , .., Xi = xi , .., Xn+1 = xn+1 ) ; etc.. Lid ee de d epart est que les r esultats des lancers ne sont pas ind ependants et que cest bien pour cela que les r esultats des n premi` eres observations sont `me ! capables de nous informer sur le r esultat du (n + 1)e En revanche, on fait lhypoth` ese que toutes les permutations dune suite donn ee de (n + 1) H ou B ( par exemple, pour n = 4, BBHBH ) sont equiprobables (mais les probabilit es des suites qui nen sont pas des permutations seront en g en eral di erentes) ; on aura donc p(B, B, H, B, H ) = p(B, B, B, H, H ) = p(H, H, B, B, B ) = ...

Sous cette hypoth` ese dite d echangeabilit e, un th eor` eme, d u ` a De Finetti, dit quil existe un espace (espace des param` etres), une densit e de probabilit e () sur cet espace et des lois p (.), tels que :
n+1

p(x1 , .., xi , .., xn+1 ) =

[
i=1

p (xi )].() d() ;

Comme p (xi ) ne prend que deux valeurs et quelles ne d ependent que de , on peut ecrire que p (H ) = f (); p (B ) = 1 f () ; le changement de param` etre = f () et le changement de variable correspondant dans lint egrale, o` u la densit e devient ( ) = (f 1 ( )). ( ), permet dobtenir une expression plus simple
n+1

p(x1 , .., xi , .., xn+1 ) = 23

[
i=1

p (xi )]. ( ) d( ),

avec p (H ) = ; p (B ) = 1 . Autrement dit, tout se passe comme si : i) on etait dans un espace produit X , sur lequel existait une loi jointe dont les marginales etaient dune part la loi du couple (X, Xn+1 ), o` u X d esigne le n- echantillon (X1 , .., Xi , .., Xn ), et dautre part la loi a priori du param` etre ; et que, de plus, ii) conditionnellement ` a chaque valeur du param` etre, les composantes Xi de (X, Xn+1 ) etaient ind ependantes et de m eme loi. On retrouve bien le formalisme bay esien standard. La loi a posteriori du param` etre, ayant observ e x = (x1 , .., xi , .., xn ), a donc pour densit e L (x). ( ) (/x) = p(x) o` u lon a pos e L (x) = p (x) =
n i=1 p (xi )

et p(x) = p(x1 , .., xi , .., xn ).

`me lancer est donn La pr ediction du r esultat du (n + 1)e ee par la probabilit e a posteriori de Xn+1 sachant x :

p(xn+1 /x) = 1 p(x)

p(x, xn+1 ) 1 = p(x) p(x)

p (x, xn+1 ). ( ) d( ) =

p (x).p (xn+1 ). ( ) d( ) =

p (xn+1 ).

L (x). ( ) d( ) = p(x)

p (xn+1 ). (/x) d( ), soit encore p(H/x) =


. (/x) d( ) ; p(B/x) =

(1 ). (/x) d( ) ;

ce sont, respectivement, les esp erances a posteriori de et [1 ].


`me lancer d cas particulier La pr ediction du r esultat du (n + 1)e epend de x et de la loi a priori du param` etre dune fa con que lon peut pr eciser lorsque lon choisit cette loi a priori dans la famille des lois B eta.

24

La famille des lois B eta. Une variable Y suit une loi B (p, q ) lorsquelle a pour support [0, 1] et pour densit e de probabilit e B (y | p, q ) =

(p + q ) p1 y (1 y )q1 (p).(q )

o` u p > 0, q > 0 et (r ) = 0 xr1 exp(z ) dz . p Lesp erance dune loi B (p, q ) est p+q Supposons que la loi a priori du param` etre suive une loi B (h , b ). On observe x = (x1 , .., xi , .., xn ) avec h = #{i : xi = H } et b = n h = #{i : xi = B }. La loi a posteriori de si x a alors pour densit e
(h +b ) h 1 (1 )b 1 ] [ h .(1 )b ].[ ( L (x). ( ) h ).(b ) = (/x) = p(x) p(x)

h +h1 .(1 )b +b1 ; cest donc une loi B (h + h, b + b). Les lois B eta forment donc une famille de lois conjugu ee de la loi de l echantillon.
`me coup Les pr edictions de p(H/x) et p(B/x) au (n+1)e etant les esp erances a posteriori de et [1 ] valent :

p(H/x) =

b + b h + h et p(B/x) = . h + b + n h + b + n

Si lon compare avec les pr edictions de la statistique classique, p(H/x) = h b et p(B/x) = , n n

on voit (en supposant h et b entiers) que les croyances a priori sur la valeur du param` etre equivalent ` a une observation ant erieure a ` celle de l echantillon de h issues H et b issues B. On peut encore remarquer que lorsque h = b = 1, la loi B (1, 1) est la loi 1+h 1+b uniforme et que les pr edictions p(H/x)= 2+n et p(B/x)= 2+n sont proches des pr edictions classiques. paris On sera pr et ` a parier sur H si le gain net G et la mise M satisfont G.p(H/x) M.p(B/x) 0 Dans le cas g en eral ceci equivaut ` a G

. (/x) d( ) M 25

(1 ). (/x) d( ) ;

et, dans le cas particulier dune loi a priori B (h , b ) ` a G b + b G b + b h + h M . h + b + n h + b + n M h + h

26

Anda mungkin juga menyukai