Anda di halaman 1dari 5

I.

Rsum de statistique descriptive


unidimensionnelle
I.1 Terminologie de la statistique
I.1.1 Caractre
Attribut, caractristique, proprit faisant l'objet d'une observation rpte.
Une valeur possible pour un caractre est une modalit de ce caractre.
Un caractre peut tre, selon la nature de ses modalits:
Qualitatif : les modalits sont des libells
ex. : lactivit principale dun mnage, le niveau de vie dun mnage, lespce dun kg de viande
produite.
Quantitatif (aussi appel variable statistique) : les modalits sont des nombres. Un caractres
quantitatif appartient lune des deux catgories :
- discret : lensemble des modalits est discret
- continu : lensemble des modalits est continu.
ex. : la pluie annuelle en un lieu donn, le revenu annuel dun mnage, le nombre denfant dans une
famille.
Un caractre quantitatif de nature peut tre interprt comme qualitatif (en regroupant les modalits
dans des classes par exemple) et vice-versa (en procdant un codage numrique, ou une ordination).
Ordinal : un caractre qualitatif dont les modalits sont ordonnes.
I.1.2 Individu
Ralit physique concerne par un caractre. Ex. : un mnage, une station pluviomtrique-anne, un
kg de viande
I.1.3 Population
Ensemble de tous les individus considrs. Elle peut tre finie de taille N ou infinie.
I.1.4 Recensement
_Etude de tous les individus d'une population donne.
I.1.5 Sondage
Etude d'une partie seulement d'une population appele chantillon.

I.2 Description de donnes quantitatives


I.2.1 Dfnition
On appelle variable un vecteur X de taille n. Chaque cordonne xi correspond un individu . On s'intresse
ici des valeurs numriques .
I.2.2 Poids
Chaque individu a ventuellement un poids pi, tel que p1 +.+ pn=1. On a souvent pi = 1/n pour tout i. Les
individus ont alors tous le mme poids.
I.2.3 Reprsentation
Histogramme en dcoupant le domaine des valeurs de la variable en classes ; ou alors bote moustache

1
I.2.4 Rsums numriques
On dispose d'une srie d'indicateurs qui ne donne qu'une vue partielle des donnes : effectif, moyenne,
mdiane, variance, cart type, minimum, maximum, tendue, 1er quartile, 3me quartile, ... Ces
indicateurs mesurent principalement la tendance centrale et la dispersion.
On utilisera principalement la moyenne, la variance et l'cart type.

I.3 Moyenne arithmtique


1 n n
Dfinition : on note x =
n i =1
xi ou pour des donnes pondres x = pi xi
i =1
Proprits : la moyenne arithmtique est une mesure de tendance centrale qui dpend de toutes les
observations et est sensible aux valeurs extrmes. Elle est trs utilise cause de ses bonnes proprits
mathmatiques.

I.4 Variance et cart-type


1 n n


2 2
Dfinition : la variance de X est dfinie par sx2 = ( xi x ) ou s 2
x = pi ( xi x )
n i =1 i =1

Lcart-type Sx est la racine carre de la variance.


Proprits : autre formule de calcul de la variance (thorme de Knig)
1 n 2 n
sx2 =
n i =1
xi x 2 ou sx2 = pi xi 2 x 2
i =1
La variance est la moyenne des carrs moins le carr de la moyenne .
L'cart-type, qui a la mme unit que X, est une mesure de dispersion.

I.5 Variable centre, variable rduite


La variable centre de x est la variable colonne z dont les valeurs sobtiennent en retranchant de
chaque valeur de x la moyenne arithmtique x . zi = xi- x . La moyenne de la variable centre est donc 0.
x x
La variable rduite de x est la variable colonne t dont les valeurs sont ti = i . La variance de la
sx
variable rduite est donc 1.

I.6 Mesure de liaison entre deux variables


A lexamen du nuage de points reprsentant les couples (xi, yi) dans un repre daxes Ox et Oy, seules trois
situations peuvent apparatre :
- les variations des deux caractres nont aucun lien entre elles : les deux variables sont indpendantes.
- lune des deux variables sobtient ds que lon connat lautre : il y a une liaison fonctionnelle (y = f(x) ou x
= g(y)) entre les deux variables. On parle alors de rgression de y en x (ou de x en y).
- sans tre rigoureusement lies, les deux variables sont en dpendance plus ou moins marques : les deux
variables sont en corrlation.
Dfinitions La covariance sxy entre deux variables x et y est une sorte de variance combine :

1 n n

s xy
= ( xi x )( yi y ) ou
n i =1 s xy
= pi ( xi x )( yi y )
i =1

Contrairement la variance qui est toujours positive ou nulle, la covariance peut tre ngative.
Lorsque x et y sont totalement indpendantes sxy est nulle. La rciproque nest pas vraie.

Si x et y varient globalement dans le mme sens alors sxy > 0 ; au contraire si x et y varient globalement en
sens inverses alors s xy < 0.
2
Lorsque le nuage de points est allong suivant une direction de droite, on a affaire une corrlation linaire
entre x et y. On recherche une rgression linaire de la forme y = ax +b , o a et b sont les coefficients de
rgression de y en x. Lintensit de la liaison est alors mesure par le coefficient de corrlation linaire

( x x )( y y )
n n
sxy i =1 i i i =1
pi ( xi x )( yi y )
rxy = = = en prsence de poids.
sx s y
(x x) ( y y) i =1 pi ( xi x ) i=1 pi ( yi y )
n 2 n 2 n 2 n 2
i =1 i i =1 i

I.7 Proprits du coefficient de corrlation


On a 1 rxy 1 ; et | rxy | =1 le nuage de points est une droite
Lorsque | r | 1, le nuage de points est distribu autour dune droite. On admet alors
quapproximativement y f(x), et que les diffrences constates sont dues aux fluctuations
dchantillon et diverses erreurs dobservation qui surviennent de manire alatoire. Il existe
alors deux rels a et b tels que y ax + b. Y = aX + b est lquation de la droite de rgression
de y en x
Les coefficients de la droite de rgression calculs par la mthode des moindres carrs sont
donns par :
sxy sxy
a= 2 ; b= y 2 x
sx sx

I.8 Le coefficient de corrlation par l'exemple

Interprtation : on a 4 variables numriques avec 30 individus. Les variables 1 et 2 sont indpendantes ; les
variables 1 et 3 ont une relation linaire ; les variables 2 et 4 ont une relation non-linaire.

I.9 Corrlation et liaison significative

Problme : partir de quelle valeur de rxy peut-on considrer que les variables x et y sont lies ?

Rgle : valable dans le cas ou le nombre d'individus est n > 30 ou si x et y sont gaussiennes. On montre

alors que


suit une loi de Fischer-Snedecor F(1;n - 2).
On se fixe un risque d'erreur (0,01 ou 0,05 en gnral) et on calcule la probabilit
22 
 1,   2  
12
Si  < on considre que l'vnement est trop improbable et que donc l'hypothse originale d'indpendance
doit tre rejete au seuil . On trouvera en gnral ces valeurs dans une table pr calcule de la loi F.
3
II. La notation matricielle
Lensemble de donnes correspondant m variables observes sur n individus (sujets) peut tre
considr comme une matrice M n lignes et m colonnes : les vecteurs colonnes sont les variables
exprimes sur les sujets, et les vecteurs lignes sont les sujets exprims sur les variables.
La notation matricielle simplifie lcriture des formules et facilite la comprhension des relations entre
variables et sujets.
Exemple : soient deux variables X et Y et 3 sujets S1, S2 et S3. La matrice des donnes est
x1 y1

M = x2 y2 o xi (respectivement yi) est la valeur de la variable X (respectivement Y) pour le sujet
x y3
3
Si.
Remarque : Lorsquil y a un grand nombre de variables, il est plus commode de les noter X1, X2, ,
Xm, et la matrice des donnes scrit alors :
x11 x1m
M =    o xij est la valeur observe sur le sujet Si pour la variable Xj
x  x
n1 nm

II.1 Quelques dfinitions et proprits


Transpose dune matrice : la transpose de M est la matrice M obtenue en inter changeant les
lignes et les colonnes.
x1 y1
x1 x2 x3
M = x2 y2 M ' = La transpose dun vecteur colonne est un vecteur ligne et vice-
x y1 y2 y3
3 y3
versa.
Matrice carre : Une matrice est carre lorsque le nombre de lignes est gal au nombre de colonnes.
Matrice symtrique : Une matrice carre est symtrique si elle est gale sa transpose ( xij = xji pour
i j).
Matrice diagonale : matrice carre dont tous les lments sont nuls sauf ceux de la diagonale de
gauche droite ( xij = 0 pour i j). Elle est de la forme :
a1 0 1 0

=  In = 

0 an 0 1
Matrice unit : matrice diagonale In, dont tous les lments de la diagonale sont gaux 1
Multiplie dune matrice par un nombre : cest la matrice obtenue en multipliant tous les lments
par ce nombre.
Somme de deux matrices : les matrices doivent tre de mmes dimensions.
a11 a1m b11 b1m a11 + b11 a1m + b1m

A =    B =    A+ B =   
a  a b  b a +b  a +b
n1 nm n1 nm n1 n1 nm nm

Remarque : A B = A + (-1.B)

4
Produit de deux matrices : le produit (A.B) de deux matrices A et B nest dfini que si le nombre de
colonnes de A est gal au nombre de lignes de B. Le produit de deux matrices nest donc pas commutatif
(A.B B.A).
p11 p1r q11 q1m t11 t1m
r
Soit P =    et Q =    P.Q = T =    avec tij = pik .qkj
p  p q  q t  t k =1
n1 nr r1 rm n1 nm

2 3

Exemple : revenons nos deux variables observes sur 3 sujets et supposons que M = 1 5
5 2

2 3 13 17 16
2 1 5
Le produit de M par sa transpose est M .M ' = 1 5 = 17 26 15 . Calculez M.M
5 2 3 5 2 16 15 29

II.2 Interprtation du produit de la matrice par sa transpose


Soient Y1, , Ym les variables centres correspondants respectivement X1, , Xm et Y la matrice de
donnes correspondante.
yij = xij -  , i = 1, ,n, j= 1, ,m
Soient U1, , Um les variables rduites correspondants respectivement X1, , Xm et U la matrice de
donnes correspondante.
" ((('
&#$ &
 !  % #$  . Alors :
$ %$

Y.Y = n.V o V est la matrice de variance-covariance :


les lments de la diagonales sont les variances (vjj = )& ! pour j =1, ,m) et les lments hors
diagonales les covariances (vij = )&#"$ pour ij). Les variances reprsentent la dispersion des
variables sur les individus et les covariances la position relative des variables entre elles.
U.U = R o R est la matrice de corrlation :
les lments de la diagonale sont tous gaux 1 et les lments hors diagonale sont les
coefficients de corrlation. ( rjj = 1 pour i=1, ,m et rij = &#"$ pour ij).