Anda di halaman 1dari 33

Probabilits et statistiques dans le

traitement de donnes exprimentales

S. LESECQ, B. RAISON IUT1, GEII 1


Module MC-M1 2009-2010

V Estimation de paramtres, tests


dhypothse, statistiques

Module MC-M1 2009-2010

Plan de cette partie








Quest-ce que la statistique ?


Dfinition des variables
Les diffrents outils notre disposition
Estimation par les moindres carrs
Rgression linaire
Signaux stationnaires et ergodicit

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

Quest-ce que la statistique ?




La statistique est l'ensemble des mthodes permettant de


dterminer les caractristiques d'un ensemble de donnes.


Cette activit regroupe trois principales branches :





Faire parler les donnes afin dobtenir le maximum


dinformation.

La collecte des donnes.


Le traitement des donnes collectes (statistique descriptive,
).
L'interprtation et la gnralisation des rsultats (infrence
statistique, )

Domaine dapplication:


conomie, Finance, Gestion, Sciences sociales, Psychologie,


Physique, Chimie, Sciences naturelles, .

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

44

Population, individu et chantillon





Individu : Un lment de la population.


chantillon : Un sous-ensemble de la
population.
Population
Individu
Elment de la population

Echantillon
Sous-ensemble de la population.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

x x
x
x x
x
x
x
x
x
x
x x x
x
x
x x
x x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x

55

Principe de lchantillonnage


Impossibilit d'obtenir toute l'information :







Budgets limits
Temps
Objets rares
Tests destructeurs

Si lchantillon tudi est bien choisi, les


observations sur lchantillon permettront
d'acqurir les connaissances voulues sur la
population.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

66

Variable


Une caractristique dintrt qui varie selon les


individus de la population.


Exemple : Les voitures assures par une compagnie


d'assurance varient selon leur couleur, leur marque,
leur puissance, leur prix, le nombre de kilomtres
parcourus, etc.

Une variable est souvent reprsente


symboliquement par une lettre majuscule


Exemples
X = Temps pass revoir le cours par tudiant.
R = Note obtenue l'examen par tudiant.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

77

Dfinition de la covariance et de la corrlation


densit de probabilit f(x,y) : on dfinit <x>, <y>, 2(x) ,2(y) et
C(x,y) = E[(x-E(x)).(y-E(y))] covariance de x et y

Correlation r(x,y) = C(x,y) /( (x) (y))

ingalite de Schwartz

-1 r +1

x et y indpendants C(x,y) = 0 ATTENTION: rciproque fausse !!


r(x,y) = 1 ou -1 indique que les 2 variables sont compltement lies
r(x,y) = 0 indique que les 2 variables sont non correles (sans relation entre elles)

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

Un petit exemple (sous excel)


Le tableau suivant prsente pour diffrents individus le nombre de cigarettes
fumes et la capacit pulmonaire mesure.

Cigarettes (X) Capacit pulmonaire (Y)


0

45

42

10

33

15

31

20

29

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

Lien possible entre les deux variables ?

50
45

Capacit (Y)

40
35
30

25
20
0

10

15

20

Cigarettes (X)

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

10

Somme de variables alatoires indpendantes


s=x+y

f(x,y) = fX(x) fY(y)

<s> = <x> + <y> (vrai mme si x et y corrls)


2(s) = 2(x) + 2(y) les variances sajoutent
(remarque d = x - y

2(d) = 2(x) + 2(y) )

application: N tirages indpendants xi selon f(x):


s = xi

2(s) = N 2(x) = N 2

m = s/N

<m> = <x> et 2(m) = 2/N

premiere loi des grands nombres: m tend vers <x> avec une variance qui dcrot
en 1/N (la prcision augmente comme N )

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

11

Application de la loi des grands nombres




Illustration sur des tirages pile/face effectus pour


un nombre diffrent de tirages
Nombre

Moyenne Ecart-type

0.6

0.4984

100000

0.5477

0.5000

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

12

Illustration graphique : loi des grands nombres


On fait varier le nombre de tirages pile/face et on calcule la moyenne et l cart-type
obtenus

Moyenne

Ecart-type
0.51

0.55

Ecart type de l'chantillon

Moyenne de l'chantillon

0.6

0.5

0.45

0.4

0.35

0.505

0.5

0.495

0.49

0.485
0.3
0

1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

Taille de l'chantillon

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

Taille de l'chantillon

13

Calcul de quelques valeurs via excel


Moyenne (X)

Moyenne (Y)

10

36

Ecart type (X)

Ecart type (Y)

7.91

7.07

Coefficient de
corrlation
-0.96
Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

14

Observations


Les valeurs rsultantes dune variable


constituent les observations de ltude.
Exemples:


Pour un chantillon de cinq personnes, X= Age

La variable Y= sexe observe sur lchantillon

x1 =19, x2 = 20, x3 = 23, x4 = 40, x5 =15


y1 = H, y2 = F, y3 = F, y4 = F, y5 = H

Lensemble des observations constitue le


tableau des donnes

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

1515

Que fait-on de ces donnes ?




statistique descriptive  regroupe les techniques utilises


pour dcrire un ensemble de donnes
 Observations disponibles
 Une statistique est une quantit calcule partir d'un certain
nombre d'observations.

critres qui quantifient diffrentes caractristiques de la


distribution des observations:
 sont-elles centres autour d'une valeur ?
 sont-elles groupes autour de certaines valeurs ?
 parcourent-elles de larges plages de valeurs possibles ?
 suivent-elles des lois statistiques connues ?
 etc.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

16

Les outils notre disposition




Les statistiques simples permettent de dcrire les


observations :









la moyenne ;
la mdiane ;
le mode (valeur la plus reprsente d'une variable
quelconque dans une population d'objets) ;
le maximum ;
le minimum ;
l'cart type (ou son carr la variance) ;
des quantiles.

Les deux premiers  critres de position


Les autres  critres de dispersion

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

17

Illustration : mdiane (critre de position)


Code

NOM

PSDC99

95203

EAUBONNE

22870

95306

HERBLAY

23081

95277

GONESSE

24721

95582

SANNOIS

25331

95607

TAVERNY

25905

95063

BEZONS

26087

95680

VILLIERS-LE-BEL

26089

95280

GOUSSAINVILLE

27224

95500

PONTOISE

27418

95219

ERMONT

27542

95252

FRANCONVILLE

33494

95268

GARGES-LES-GONESSE

39963

95127

CERGY

53995

95585

SARCELLES

57940

95018

ARGENTEUIL

94019

minimum

mdiane

tendue
(94019-22870)

moyenne

35711

maximun

Les valeurs sont ranges par


ordre croissant
Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

18

Illustration variance (critre de dispersion)

La variance de y est gale la somme des carrs des carts la


moyenne divise par leffectif n.

1 n
2
2
( yi y ) = y

n i =1

PSDC99 cart la moyenne (cart la moyenne)2


-12 841,9
164915251,7
22 870

Code

NOM

95203

EAUBONNE

95306

HERBLAY

23 081

-12 630,9

159540476,9

95277

GONESSE

24 721

-10 990,9

120800615,5
107763776,9

95582

SANNOIS

25 331

-10 380,9

95607

TAVERNY

25 905

-9 806,9

96175941,4

95063

BEZONS

26 087

-9 624,9

92639341,67

95680

VILLIERS-LE-BEL

26 089

-9 622,9

92600845,94
72045012,27

95280

GOUSSAINVILLE

27 224

-8 487,9

95500

PONTOISE

27 418

-8 293,9

68789330,14

95219

ERMONT

27 542

-8 169,9

66747810,67

95252

FRANCONVILLE

33 494

-2 217,9

4919228,271
18071567,8

95268

GARGES-LES-GONESSE

39 963

4 251,1

95127

CERGY

53 995

18 283,1

334270526,7

95585

SARCELLES

57 940

22 228,1

494086947,7

95018

ARGENTEUIL

94 019

58 307,1

3399714023

somme

535 679

0,0

5 293 080 696,9

effectif

15
35 711,9

moyenne

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

352 872 046

19

Illustration cart-type (crtire de dispersion)

Lcart type dune variable est gal la racine carre de sa variance.

1 n
2
(

)
=y
yi
y

n i =1

Lcart type
sexprime dans
la mme unit
que les
observations

PSDC99 cart la moyenne (cart la moyenne)2


-12 841,9
164915251,7
22 870

Code

NOM

95203

EAUBONNE

95306

HERBLAY

23 081

-12 630,9

159540476,9

95277

GONESSE

24 721

-10 990,9

120800615,5

95582

SANNOIS

25 331

-10 380,9

107763776,9

95607

TAVERNY

25 905

-9 806,9

96175941,4
92639341,67

95063

BEZONS

26 087

-9 624,9

95680

VILLIERS-LE-BEL

26 089

-9 622,9

92600845,94

95280

GOUSSAINVILLE

27 224

-8 487,9

72045012,27

95500

PONTOISE

27 418

-8 293,9

68789330,14
66747810,67

95219

ERMONT

27 542

-8 169,9

95252

FRANCONVILLE

33 494

-2 217,9

4919228,271

95268

GARGES-LES-GONESSE

39 963

4 251,1

18071567,8

95127

CERGY

53 995

18 283,1

334270526,7
494086947,7

95585

SARCELLES

57 940

22 228,1

95018

ARGENTEUIL

94 019

58 307,1

3399714023

somme

535 679

0,0

5 293 080 696,9

effectif

15
35 711,9

moyenne

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

cart-type
variance

352 872 046,5

18 784,9

20

Reprsentation graphique
100000
ARGENTEUIL

90000
80000
70000
60000

SARCELLES
CERGY

50000
GARGES-LES-GONESSE

40000

VILLIERS-LE-BEL

mdiane

30000
20000

PONTOISE
SANNOIS

ERMONT

FRANCONVILLE

moyenne
cart-type

HERBLAY

EAUBONNE

GONESSE

GOUSSAINVILLE

TAVERNY
BEZONS

10000
0
Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

21

Estimation de paramtres
X variable alatoire dont la densit de probabilit f(x,)
dpend dun paramtre inconnu .

Etant donn N tirages xi de X, que peut-on dire de ?


But : construire une variable alatoire, fonction des xi , dont
lesprance mathmatique (moyenne) sera (au moins
asymptotiquement) (et dont la variance sera la plus faible
possible). [une telle variable est appele estimateur, ou
encore statistique !]

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

22

Estimation de paramtres
Biais dun estimateur de = diffrence entre son esprance et

Un estimateur sera convergent si le biais BN et sa variance 2N


tendent vers 0 en 1/N lorsque N
Les proprits de convergence des estimateurs usuels
dcoulent de la loi des grands nombres (dmonstration plus
ou moins facile)
Un estimateur qui a une variance plus faible que les autres est
dit optimal; et si sa variance est le minimum thorique, il est dit
efficace. [il nexiste pas forcment destimateur efficace pour
N fini]
Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

23

Estimation par moindres carrs


Exemple : on dispose de plusieurs mesures dune rgle diverses tempratures
Ti, et on veut estimer son coefficient de dilatation .
On suppose mes diverses mesures Li indpendantes, chacune affecte dune
incertitude i
On dispose dun modle thorique
L(T) = L0 (1 + T) avec 2 paramtres inconnus L0 et
Problme : Estimer au mieux ces 2 paramtres partir des observations
L

Jestime les paramtres inconnus en prenant


pour valeurs celles qui minimisent la somme

2 = [Li L(Ti)]2/i2
Cas gnral: estimation biaise, convergente

T
Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

Variance-covariance des estimateurs donne


asymptotiquement par 2 fois linverse de la
matrice des drives secondes au minimum
24

Cas particulier : rgression linaire


(daprs document Y. Demur)


La rgression linaire est un outil


(mathmatique) statistique qui permet de
dfinir une loi linaire entre deux variables
intervenant dans un mme phnomne.
Le coefficient de corrlation est un indicateur
sur la qualit des donnes. Il est dgrad par
la dispersion des informations autour de la
tendance.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

25

Principe de la rgression linaire

Loi linaire



Mthode graphique
Mthode statistique

On veut obtenir la
meilleure quation de
droite y = ax + b partir
d'un nuage de n points.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

26

Principe de la rgression linaire






G ( x = x / n, y =
Calcul du barycentre
Calcul de a avec un critre doptimisation
Calcul de b avec b = y ax

y / n)

Coefficient de corrlation r=cov(x,y)/xy caractrise


le regroupement en ligne des points.

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

27

Illustration de la regression linaire


Considrons la droite y=2x+5 laquelle on ajoute du bruit blanc
35.00

On pratique une
rgression linaire pour
chaque ralisation

30.00

25.00

20.00

15.00

10.00

bruit

pente

ordonne

0.01

1.99981

5.002537

0.1

2.00383

4.977576

1.97281

5.158888

10

2.22103

4.123788

5.00

0.00
1

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

10

11

28

Une remarque importante

Signal alatoire


Signal bidimensionnel dpendant du temps et


d'une variable alatoire
Comment caractriser un signal dont la valeur
chaque instant est une variable alatoire?

Objectifs


Notions de stationnarit et d'ergodicit

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

29

Stationnarit dun signal : constatation




Hypothse : une infinit d'expriences dans des


conditions identiques




Moyenne m(t) = E[x(t)]


Corrlation
R(x,t1, t2) = E[x(t1)x(t2)]
Covariance
C(x; t1, t2) = E[(x(t1)m1)(x(t2)m2)]

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

30

Quest-ce que la stationnarit ?

Remarque : Le comportement d'une v.a n'est


pas ncessairement identique pour t1 et t2
quelconque. Pour s'affranchir de cette
difficult, on dfinit la notion de stationnarit
d'un signal

Stationnarit  indpendance du temps

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

31

Stationnarit du second ordre

Stationnarit du 2nd ordre





galit des moyennes E[x(t1)] = E[x(t2 )]


Invariance temporelle des corrlations
E[x(t1).x(t2)] = E[x(t1 + T).x(t2 + T)]
Invariance des covariances
("mesure" une dpendance linaire entre les
diffrentes valeurs d'un signal alatoire)
C[x(t1), x(t1 + T )] = C[x(0), x(T)]

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

32

Ergodicit


Dans la pratique, on ne dispose souvent que d'une


ralisation du phnomne alatoire. Il devient donc
difficile de caractriser statistiquement le signal
alatoire

L'hypothse d'ergodicit consiste admettre que


l'volution d'un signal alatoire au cours du temps
apporte la mme information qu'un ensemble de
ralisations

Ergocit => Histogramme est une estimation de la ddp

Cours MC-M1 B. RAISON - GEII 1 / 2009-2010

33

Anda mungkin juga menyukai