Anda di halaman 1dari 11

CHAPITRE 5

ANALYSE STATISTIQUE

CHAPITRE 5

ANALYSE STATISTIQUE DES SERIES STATISTIQUES BIVARIEES

5.1 REPRESENTATION DUNE SERIE STATISTIQUE BIVARIEE


Considrons un tableau I.C. rsultant de la mesure de deux variables X et Y sur les n lments dun ensemble dindividus I. I C X Y x1 y1
.

i xi yi

n xn yn

Lensemble des couples :

{ (xi , yi) ;

i = 1,2, n}dfinit une srie statistique

bivarie. Si les deux variables sont quantitatives, chaque individu i est symbolis par un point dfini dans un systme daxes orthonorms par les coordonnes xi et yi . Il est covenu de dire que les lments ainsi reprsents constituent un nuage de points. Limpression quon peut retire de la vision dun tel graphique dpend bien sr des units choisies le long de chaque axe. Lorsque le nombre n de valeurs recueillies est lev, chaque couple dobservations peut apparatre plusieurs reprises. Cette situation se prsente surtout quand la variable. Dans ce on associe chaque couple dobservations un effectif reprsentant le nombre de fois quil est apparu. Si les valeurs distinctes de X et de Y sont notes x1, x2 , ,xJ dune part y1 ,y2,.yK 51
JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

dautre part, un couple dobservations peut tre reprsent par (xi , yi ). Nous dsignons par njk leffectif correspondant ce couple. La srie statistique bivarie permet alors de dfinir une distribution observe deux dimensions( note D.O.2) par lensemble des triplets {(xj , yk , njk ) , j = 1, 2, , J, k = 1, 2, K}.

5.2. DISTRIBUTIONS MARGINALES ET CONDITIONNELLES


Ltude dune srie bivarie { (xi , yi) ; i = 1, 2, n} comporte en particulier lanalyse des sries marginales univaries obtenues en ne considrant quune variable la fois dans le tableau I.C. : Srie marginale en X : { xi ; i = 1, 2, n} Srie marginale en Y : { yi ; i = 1, 2, n}. Par ailleurs, le mme tableau de contingence (I.C.) permet de dfinir des distributions conditionnelles qui consistent fixer a priori la valeur dune variable et examiner la variation de lautre.

5.3. MOMENTS DUNE DISTRIBUTION OBSERVEE A DEUX DIMENSIONS


Considrant une srie bivarie {(xi , yi) ; i = 1, 2, n} comportant n observations. Un moment par rapport lorigine dordre r en X et dordre s en Y est dfini par : 1 n r s rs = x i yi . n i =1 Un moment centr dordre r en X et dordre s en Y est dfini par : 1 n mrs = ( x i n i =1 x) r ( y y) s .

O x et y sont les moyennes des sries marginales en X et en Y. Les nombres r et s sont des entiers naturels.

52

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

Cas particulier : si r = s = 1, alors m11 paramtre est souvent not m11 = s xy .

1 n = (x n i =1 i

x )( y

y) (covariance) ; ce

5.3.1 Mthode dajustement linaire Dans le but dintroduire le concept de dpendance statistique entre deux variables X et Y, il est utile dintroduire la notion dajustement linaire dun ensemble dobservations. Le problme gnral dun tel ajustement peut se poser comme suit : on dispose dun ensemble dobservations (xi , yi ; i = 1, 2, n) relatives un couple de variables (X, Y). On dsire ajuster ces points par une courbe dquation y = a + bx. Pour dterminer a et b, il faut utiliser un critre permettant de choisir la meilleure droite possible, cest--dire celle qui passe au mieux entre tous les points. Critre des moindres carrs. La mthode propose ici consiste dterminer les paramtres a et b de manire minimiser lexpression Q (a,b) =

(y
i =1

bx ) 2 .

Une condition ncessaire pour avoir un minimum est que

Q Q = 0 et = 0 a b
Q = 0 y = a +b x a
et

s xy Q = 0 b = 2 . b sx

n 2Q 2Q = 2n > 0 , = 2 x i2 > 0 et que le dterminant Comme a 2 b 2 i =1

2Q a 2 2Q ab

2Q ab = 4n x 2 i 2Q i b 2

4( x i ) 2 = 4n 2 s 2 est positif, nous savons que cette triple x


i

condition ajoute la condition ncessaire est suffisante pour assurer que lon a effectivement minimis Q(a,b).

53

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

Remarque : il existe dautres ajustement (exponentiel, hyperbolique, polynomial, etc.) 5.3.2 Coefficient de corrlation Par ajustement linaire, on peut donc dterminer soit la droite de rgression, au sens des moindres carrs, de y en x, si y est variable dpendante et x variable explicative, soit la droite de rgression de y en x dans le cas contraire, soit les deux. Le coefficient de corrlation (dit de Bravais-Pearson) r entre les (xi ) et (yi ) est dfini par la relation :

r=

1 n (x n i =1 i 1 n ( (x i n i =1
2

x )( yi

y) x) ) )
1 2 2 2

1 n x) (x i n i =1

ce que lon peut encore crire r =

s xy s xs y

Remarque le coefficient r est indpendant dun changement dorigine. le coefficient angulaire de la droite de rgression de y en x, peut encore scrire : b=

sy sx

Do lquation de cette droite de rgression : y - y = r

sy sx

(x - x ). Si r > 0 la droite

est croissante ; si r < 0 al droite est dcroissante. En plus la droite de rgression passe par le point ( x , y ).

5.4. ESTIMATION

54

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

On considre une caractristique dune population P. Par exemple est la moyenne dune variable X qui concerne les individus de P ou la proportion dindividus de P qui possdent la proprit Q. (exemple P la population marocaine, X est la taille dun marocain choisi au hasard, est la taille moyenne des marocains cest--dire la moyenne des tailles de tous les marocains). Pour connatre la valeur exacte de il faut tudier tous les individus de P en effectuant un recensement. Si lon a pas la possibilit dtudier tous les individus de P (faute de temps ou dargent ou parce que P est infinie), on se contente dtudier un chantillon de taille n extrait de faon alatoire de P. On va tudier comment il est possible den dduire une valeur approche de ou de trouver un encadrement de (intervalle de confiance de ). Soit x1, x2, , xn un chantillon extrait de P, les xi changent lorsque lon change dchantillon. On dfinit ainsi n variables alatoires Xi. On suppose que les Xi sont indpendantes et que chaque Xi suit la mme loi que X. En pratique cette hypoyhse est vrifie si les les chois des individus de lchantillon se font avec remise(ler mme individu peut alors figurer plusieurs fois dans lchantillon). On peut encore la considre comme vrifie si les chois se font sans remise dans une population de taille infinie ou trs grande par rapport la taille de lchantillon. On considre une v.a.r Yn fonctions de X1, X2, , Xn . Dfinition 5.1 On dit que Yn est un estimateur de si :
n

lim E (Yn) = et lim V(Yn) = 0.


n

On dit que Yn est un estimateur sans biais si E (Yn) = , n N*. On dit que Yn est un estimateur asymptotiquent sans biais si lim E (Yn) = .
n

On dit que Yn est un estimateur convergent si lim V (Yn) =0.


n

5.4.1 Estimation ponctuelle 5.4.1.1 Estimation dune proportion

55

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

Ici le paramtre est la proportion p dindividus de P qui possdent la proprit Q. La v.a.r Xi associe au ime individu dun chantillon de taille n est dfinie par

Xi = 1 si lindividu possde la proprit Q Xi = 0 si lindividu ne possde pas la proprit Q,


n

X
et Yn=
i =1

Nn = Fn , n

o N n est le nombre dindividus qui possdent la proprit Q dans lchantillon, Fn est donc la frquence. Puisque chaque individu de la population a la mme probabilit dtre choisi comme i
me

individu dun chantillon de taille n, pour tout i, alors : P (Xi =1)= p,

Donc Xi suit une loi de Bernoulli de paramtre p. les Xi tant indpendantes, N n suit la loi Binomiale B(n,p) donc E( N n ) = np et V( N n ) = np(1-p) lim E( Fn ) = p et lim V( Fn ) = 0, donc Fn est un estimateur non biais de
n n

p 5.4.1.2 Estimation de la moyenne dune normale Ici le paramtre est la moyenne m dune variable X dfinie sur P, on

suppose que X suit une loi normale N (m,). Pour tout i, Xi est la valeur de X pour lindividu i, donc Xi suit la loi normale.
n

X
Considrons Yn=
i =1

= Xn .

X n est la moyenne de X dans lchantillon.

56

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

1 n On a E( X n ) = E(Xi ) = m et puisque les Xi sont indpendantes, alors n i =1


V( X n ) =

1 n2

V(X i ) =
i =1

2 . lim E( X n ) = m et lim V( X n ) = 0, donc X n est un n n n

estimateur non biais de m.

5.5 INTERVALLE DE CONFIANCE


5.5.1 Intervalle de confiance dune proportion Daprs les rsultats de 5.4.1.1 N n suit B(n,p) et Fn ,= La loi B(n,p) peut tre approche par N(np, > 5). Donc on considre la variable alatoire Zn =

Nn suit N(p, n

p(1 p) . n

np(1 p) ) (si n 30, np 15 et np(1-p)

Fn

p(1 p) n

qui suit N(0,1)

Pour [0,1] donn, la table de la loi normale N (0,1) donne le z tel que P (-z Zn z )= 1 - Notons par Fobs (la frquence observe) calcule partir de lchantillon
p(1 p) Fobs p +z n p(1 p) , mais p est n

-z Zobs z p - z inconnu, on peut donc crire p)), do le rsultat p - z

p(1 p) 1 (voir la variation de la fonctionp(1n 2 n

1 2 n

Fobs p +z

1 2 n

Fobs - z

1 2 n

p Fobs +z

1 2 n

Par suite la proportion p a la probabilit 1- dappartenir lintervalle [Fobs - z

1 2 n

, Fobs +z

1 2 n

].

Exercice

57

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

Afin dtudier le pourcentage de consommateurs satisfaits par le produit A, on a interrog 100 consommateurs. 56 dentre eux ont dclar ^etre satisfaits par A. Donner un intervalle de confiance de 95%. Rponse Lintervalle de confiance de p 95% est : I.C = [Fobs - z

1 2 n

, Fobs +z

1 2 n

o Fobs = 0.56, la table de N(0,1) nous donne z = 1.96, donc I.C = [0.56 1.96

1 1 , 0.56 + 1.96 ] = [0.462, 0.658]. 20 20

5.5.2 Intervalle de confiance de la moyenne dune loi normale

X
Daprs les rsultats de 4.1.2 X n =
i =1

, pour tout i X i suit la loi normale N(m,) o

la variance est suppose donne, donc indpendantes et de mme loi. Posons donc Zn =

X
i =1

suit N(nm, n ) car les X i sont

Xn

m n

suit N (0,1)

Pour [0,1] donn, la table de la loi normale N (0,1) donne le z tel que P (-z Zn z )= 1 - m - z

Zobs m +z
+ z/2

n n

X n obs - z/2

m Xn

obs

Par suite la moyenne m a la probabilit 1- dappartenir lintervalle [ X n obs - z

, Xn

obs

+ z

].

Exercice

58

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

Une usine fabrique des cbles. On suppose que la charge maximale supporte par un cble, exprime en tonnes est une v.a.r qui suit une loi N (m ; 0.5). Une tude portant sur 50 cbles a donn une moyenne des charges maximales supportes gale 12.2 tonnes. 1) Dterminer lintervalle de confiance 99% de la charge maximale moyenne de tous les cbles fabriqus par lusine. 2) Quelle doit tre la taille minimale de lchantillon pour que la longueur de la lintervalle de confiance 99% soit infrieure ou gale 0.2 ? Rponse 1) Lintervalle de confiance de m 99% est I.C = [ X n obs - z

0.5 n

, Xn

obs

+ z

0.5 n

n = 50 , X n obs = 12.2 et z = 2.575

I.C = [12.2 2.575

0.5 50

, 12.2 2.575

0.5 50

] = [12.0.1792 , 12.38208]

2) La longueur de lintervalle de confiance est gale 2 x 2.575 on veut que

0.5 n

2.575 n

2.575 n

0.2 cest--dire n (

2.575 ) , il faut donc n 166. 0.2

5.6. TESTS dHYPOTHESES


5.6.1. Introduction Supposons que lon ait tester une hypothse, appele hypothse nulle, note H0, par rapport une contre hypothse H1. A partir dun chantillon alatoire de X, nous avons laborer une rgle de dcision pour accepter ou rejeter lhypothse avance H0. Nous avons partitionner lespace chantillon en deux sous-ensembles disjoints, lensemble des rsultats pour lesquels

59

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

nous dcidons daccepter H0 et lensemble des rsultats pour lesquels nous dcidons de rejeter H1. Dfinition 5.2 On erreur de 1re espce, lerreur qui consiste rejeter H0 quand elle est vraie. On appelle erreur de 2nd espce, lerreur qui consiste accepter H0 quand elle est fausse. On dsigne par la probabilit de commettre lerreur de 1re espce :

= P (RH0 | H0).
On dsigne par la probabilit de commettre lerreur de 2nd espce :

= P ( R H0 | H1). On appelle puissance du test 1 - .


Remarque Les risques et ne sont pas indpendants lun de lautre : lorsque augmente,

diminue et vice versa.

5.6.2. Test de signification


Souvent, on dsire vrifier si les donnes dobservation sont compatibles avec une valeur, choisie a priori, pour un paramtre inconnu de la population. en dautres termes, on fait une hypothse concernant la vraie valeur dun paramtre inconnu et lon demande de tester cette hypothse partir des donnes dobservation.

5.6.2.1. Tests de proportion


On test : H0 : p = p0 par rapport la contre hypothse H1 : p p0 Daprs le paragraphe 5.5.1, nous avons montr que Donc si H0 est vraie, cest--dire p = p0, on a :

Nn suit N (p, n

p(1 p) ) n

Nn suit N(p0, n

p 0 (1 p 0 ) ) ; par consquent n

Fn

p0

p 0 (1 p 0 ) n

suit N(0,1).

Donc pour un [0,1] donn, on accepte lhypothse H0 ,

60

JARRAR OULIDI. A

CHAPITRE 5

ANALYSE STATISTIQUE

si |

Fn

p0

p 0 (1 p 0 ) n

| z/2 (ou | Fn - p0| z/2

p 0 (1 p 0 ) ) cest--dire si en valeur n

absolue, la statistique calcule sur lchantillon est la valeur tabule z/2 . si H0 est vraie, lvnement constat est un vnement presque certain de probabilit 1-. Si |

Fn

p0

p 0 (1 p 0 ) n

| > z/2 (ou | Fn - p0| > z/2

p 0 (1 p 0 ) ), on rejette H0 au niveau de n

probabilit .

5.6.2.2. Tests de la moyenne


On test : H0 : m = m0 par rapport la contre H1 : m m0

X
Daprs les rsultats de 5.2, X n =
i =1

, est un estimateur convergent de m.

Si H0 est vraie, cest--dire m = m0, on a :

X n qui suit N(m0,

s n

) o s =

1 n (x n i =1 i

x ) 2 ; par consquent

Xn s

m0 n

suit N(0,1).

donc si H0 est vraie, on a les deux relations probabilistes complmentaires : P (|

Xn s

m0 n

| z/2) = 1 -

et

P(|

Xn s

m0 n

| > z/2) = ;

ou de manire quivalente P (| X n - m0| z/2 si |

s n

)=1-

et

P ( | X n - m0| > z/2

s n

)=.

Xn s

m0 n

| > z/2 (ou | X n - m0| > z/2

s n

) on rejette H0 au niveau de probabilit .

61

JARRAR OULIDI. A

Anda mungkin juga menyukai