André Giroux
Département de mathématiques et statistique
Université de Montréal
2007
Table des matières
1 Le modèle probabiliste 4
1.1 Le modèle réduit . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Éléments de combinatoire . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Arrangements . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Le modèle complet . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . 13
1.5 Indépendance stochastique . . . . . . . . . . . . . . . . . . . . 16
2 Variables aléatoires 18
2.1 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . 19
2.2 Lois discrètes particulières . . . . . . . . . . . . . . . . . . . . 23
2.2.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.3 Loi hypergéométrique . . . . . . . . . . . . . . . . . . 24
2.2.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Variables aléatoires continues . . . . . . . . . . . . . . . . . . 26
2.4 Lois continues particulières . . . . . . . . . . . . . . . . . . . 29
2.4.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . 32
2.4.3 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.4 Loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . 36
2.4.5 Loi de Student . . . . . . . . . . . . . . . . . . . . . . 37
2.4.6 Loi de Fisher-Snedecor . . . . . . . . . . . . . . . . . . 37
4 L’échantillon statistique 49
1
5.1.2 Moyenne et variance d’une variable normale . . . . . . 52
5.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Moyenne et variance d’une variable normale . . . . . . 52
5.2.2 Différence des moyennes de deux variables normales . 56
5.2.3 Moyenne d’une variable de Bernoulli . . . . . . . . . . 58
7 Tests de validité 72
7.1 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2 Tests d’indépendance . . . . . . . . . . . . . . . . . . . . . . . 73
8 La régression linéaire 76
8.1 Les estimateurs de moindres carrés . . . . . . . . . . . . . . . 76
8.2 Un test d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . 78
8.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . 79
8.4 Évaluation du modèle . . . . . . . . . . . . . . . . . . . . . . 80
8.5 Extension du modèle . . . . . . . . . . . . . . . . . . . . . . . 81
2
9 La loi de Student, n = 5 . . . . . . . . . . . . . . . . . . . . . 38
10 La loi de Fisher-Snedecor, n = 8, m = 5 . . . . . . . . . . . . 38
11 Zone de rejet pour µ = µ0 contre µ 6= µ0 . . . . . . . . . . . . 62
12 Zone de rejet pour σ = σ0 . . . . . . . . . . . . . . . . . . . . 70
13 Une droite des moindres carrés . . . . . . . . . . . . . . . . . 76
14 Une exponentielle des moindres carrés. . . . . . . . . . . . . . 82
3
1 Le modèle probabiliste
Dans ce chapitre, nous introduisons le modèle mathématique utilisé pour
étudier une expérience aléatoire, apprenons à calculer la probabilité d’un
évènement complexe à partir de probabilités d’évènements plus simples et
étudions la façon de modifier les probabilités des évènements étant données
de nouvelles informations sur l’expérience considérée (probabilités condition-
nelles).
|E|
P {E} =
|Ω|
P {E c } = 1 − P {E};
5. Si E ⊆ F ,
P {E} ≤ P {F };
6. Quelques soient E1 et E2 ,
4
Exemple. Lors du jet de deux dés, il y a 36 = |Ω| issues équiprobables
ω = (i, j) où 1 ≤ i, j ≤ 6. On a
P {i + j impaire ou ij impair }
18 9
= P {i + j impaire } + P {ij impair } = + = 0, 75
36 36
et
P {|i − j| = 2 ou ij impair }
= P {|i − j| = 2} + P {ij impair } − P {|i − j| = 2 et ij impair }
8 9 4
= + − = 0, 361.
36 36 36
Remarquons que si les dés sont identiques, l’oeil ne peut distinguer que 21
cas ((i, j) avec i ≤ j) mais que ces 21 cas ne sont pas équiprobables. On a
6 3
P {i + j = 7} = = 0, 167 6= = 0, 143.
36 21
(En cas de doute sur l’équiprobabilité des cas, l’expérimentation ou la simu-
lation permettent toujours de trancher.)
5
1.2.1 Arrangements
Arranger k objets choisis parmi n, c’est les choisir en tenant compte de
l’ordre, autrement dit, c’est former un sous-ensemble ordonné avec ces k
objets. En vertu du principe fondamental, le nombre d’arrangements de k
objets choisis parmi n est
n!
A(n, k) = (n)k =
(n − k)!
(où n! = 1 · 2 · 3 · · · · · n et 0! = 1).
(365)k
pk = 1 − .
365k
Ces probabilités pk croissent avec k et l’on a
p23 = 0, 507.
6
1.2.2 Combinaisons
Combiner k objets choisis parmi n, c’est les choisir sans tenir compte de
l’ordre, autrement dit, c’est former un sous-ensemble non ordonné avec ces k
objets. Encore en vertu du principe fondamental, le nombre de combinaisons
de k objets choisis parmi n est
n n!
C(n, k) = =
k k!(n − k)!
7
(tirages avec remise, B = 1 000 000 et R = 78 498). À la loterie « 6/49 »,
6 43 6 43 6 43
+ +
4 2 5 1 6 0
P {obtenir au moins 4 bons numéros} =
49
6
= 0, 001
(6 tirages sans remise, B = 49 et R = 6).
8
2
13 4 4
2 1 10 2 1
P {deux paires} = = 0, 048
52
5
et
13 4 4
1 1 11 3 2
P {« full »} = = 0, 001.
52
5
n1 + n2 + · · · + nm ≤ n
est
n+m
.
n
9
et 6 est égal à 5n si on distingue les individus et n+4
n si on ne les distingue
pas. Le premier nombre est la valeur de la somme
X n
n2 +n3 +···+n6 =n
n2 n3 · · · n6
10
Attribuer les probabilités tout en respectant ces contraintes, c’est modéliser
le problème considéré — et le faire de façon réaliste peut être quelquefois
difficile.
Exemple. Dans l’espace Ω = {0, 1}∗ des suites binaires finies, on peut
poser
1
P {ω} = 2l(ω)+1
2
où l(ω) désigne la longueur de la suite ω. (Remarquer que l’on attribue ainsi
la probabilité 1/2 la suite vide ε.) Alors on a bien
+∞ X +∞
X X 1 X 1
P {Ω} = P {ω} = = = 1.
22l(ω)+1 2k+1
ω∈Ω k=0 l(ω)=k k=0
11
Exemple. Dans l’espace Ω = {0, 1}∞ = [0, 1] des suites binaires infi-
nies, on désigne par Γx l’ensemble des nombres réels dont le développement
binaire commence par la suite finie x — c’est un intervalle — et on pose
1
P {Γx } = .
2l(x)
Alors P peut être prolongée de façon à ce que la probabilité de n’importe quel
intervalle soit égale à sa longueur. La mesure de probabilité ainsi obtenue
s’appelle mesure de Lebesgue.
(−1)n−1
n (n − 1)! n (n − 2)! n (n − 3)!
=1− − + + ··· +
1 n! 2 n! 3 n! n!
1 1 1 (−1)n
= − + − ··· +
2! 3! 4! n!
et p1 = 0. On a pn ≈ e−1 = 0, 368 dès que n ≥ 10.
La probabilité pn,j pour que la permutation admette exactement j points
fixes est
X
pn,j = P {Ei1 Ei2 · · · Eij Eicj+1 Eicj+2 · · · Eicn }
1≤i1 <i2 <···<ij ≤n
n c c
= P {E1 E2 · · · Ej Ej+1 Ej+2 · · · Enc }
j
n (n − j)! pn−j pn−j
= = .
j n! j!
c Ec
puisque P {E1 E2 · · · Ej Ej+1 c
j+2 · · · En }n! = le nombre de permutations de
n objets laissant exactement les j premiers fixes = le nombre de dérangements
des n − j derniers objets = pn−j (n − j)!.
12
Exemple. Les fonctions surjectives.
Si k ≥ n, le nombre S(n, k) de fonctions surjectives de {1, 2, . . . , k} dans
{1, 2, 3, . . . , n} peut être calculé à l’aide du principe d’inclusion-exclusion en
considérant les évènements Ej « la valeur j est omise » et en raisonnant
comme précédemment :
S(n, k)
= P {E1c E22 · · · Enc }
nk
= P {(E1 ∪ E2 ∪ · · · ∪ En )c } = 1 − P {E1 ∪ E2 ∪ · · · ∪ En }
donc :
n
X X
k
S(n, k) = n − (n − 1)k + (n − 2)k
i=1 1≤i1 <i2 ≤n
X X
k n−1
− (n − 3) + · · · + (−1) (n − (n − 1))k
1≤i1 <i2 <i3 ≤n 1≤i1 <i2 <···<in−1 ≤n
n n n n
= nk − (n − 1)k + (n − 2)k − (n − 3)k + · · · + (−1)n−1 .
1 2 3 n−1
P {EF }
P {E/F } = .
P {F }
13
Les probabilités conditionnelles permettent souvent de calculer facile-
ment les probabilités d’intersections d’évènements :
14
6 3
114 2 15
P {k = 2} = =
216 36
et
6
3!
3 20
P {k = 3} = = .
216 36
Donc
3
1 1 2 15 3! 20
P { jet 2 = jet 1} = + + = 0, 004.
216 36 216 36 216 36
P {pourriel/bloqué}
P {bloqué/pourriel}P {pourriel}
=
P {bloqué/pourriel}P {pourriel} + P {bloqué/bon}P {bon}
0, 90 × 0, 40
= = 0, 545.
0, 90 × 0, 40 + 0, 05 × 0, 60
Exemple. Lorsque l’on génère au hasard deux suites binaires finies (non
vides), la probabilité que la plus courte ωc soit un préfixe de la plus longue ωl ,
c’est-à-dire que l’on ait ωl = ωc ω pour une suite ω appropriée — éventuellement
vide, peut être calculée en conditionnant sur la longueur l(ωl ) de la plus
longue. En supposant que
1
P {ω} = ,
22l(ω)+1
on a X 1
P {l(ωl ) = k} = P {ω} =
2k+1
l(ω)=k
15
et
+∞
X 1 1 1 1 1
P {préfixe} = + + · · · + = = 0, 071.
22+1 24+1 22k+1 2k+1 14
k=1
P {EF } = P {E}P {F }.
P {E1 × E2 } = P {E1 × Ω ∩ Ω × E2 }
= P {E1 × Ω}P {Ω × E2 } = P {E1 }P {E2 }.
16
Ainsi, lors de n épreuves indépendantes,
17
2 Variables aléatoires
Une variable aléatoire est une fonction X : Ω → R. Sa distribution (sa
loi) est déterminée par sa fonction de répartition F : R → R, définie par
F (x) = P {ω : X(ω) ≤ x}
0.8
0.6
0.4
0.2
18
1
0.8
0.6
0.4
0.2
p(xk ) = P {ω : X(ω) = xk }.
et sa variance est
X
V(X) = (xk − E(X))2 p(xk ).
k
19
Ainsi, on peut dire que
On a
Alors
E(XE ) = P {E} et V(XE ) = P {E}(1 − P {E}).
20
et
+∞
X k
E(X) = k+1
= 1.
2
k=1
Par exemple, si les éléments de la liste sont des entiers distincts entre 0 et
999 999 et si x est aussi choisi dans ce domaine, p = n/106 et
n2
E(X) = 2n + 2 − .
106
21
Lorsque les variables X et Y ne sont pas indépendantes, les probabilités
qui leur sont associées peuvent être calculées au moyen des fonctions de
masse conditionnelles :
p(xk , yj ) p(xk , yj )
pX/Y (xk /yj ) = et pY /X (yj /xk ) = .
pY (yj ) pX (xk )
X \ Y 1 2 3 4 Loi de X
1 1/4 0 0 0 1/4
2 1/8 1/8 0 0 1/4
3 1/12 1/12 1/12 0 1/4
4 1/16 1/16 1/16 1/16 1/4
Loi de Y 25/48 13/48 7/48 3/48 1
22
la fonction de masse de X peut être obtenue via sa fonction de répartition :
x+1 n
F (x) = P {X ≤ x} =
106
et
(x + 1)n − xn
p(x) = P {X = x} = F (x) − F (x − 1) =
106n
pour 0 ≤ x ≤ 999 999.
23
Exemple. On génère au hasard une suite binaire de longueur 51. Le
nombre X de changements (0 à 1 ou 1 à 0) suit une loi binomiale de pa-
ramètres n = 50 et p = 1/2.
0.175
0.15
0.125
0.1
0.075
0.05
0.025
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
On a
a a aA−n
E(X) = n et V(X) = n 1− .
A A A A−1
Typiquement, X est le nombre d’individus distingués obtenus lors de n ti-
rages sans remise d’une population de A individus dont a sont distingués.
Lorsque A est grand comparé à n, la distribution hypergéométrique est prati-
quement la même que la distribution binomiale de paramètres n et p = a/A.
24
qui rende maximum la probabilité
a A−a
k n−k
f (A) =
A
n
λk
p(k) = e−λ pour k ≥ 0.
k!
On a
E(X) = V(X) = λ.
Typiquement, X est le nombre de réalisations par unité de temps constatées
lors d’un très grand nombre d’observations (de la réalisation ou non) d’un
phénomène ayant une très petite probabilité de se produire. En particulier,
une loi binomiale de paramètres n grand et p petit est bien approximée par
une loi de Poisson de paramètre λ = np.
25
Le probabilité que le nombre de clients entre quatorze et seize heures soit
d’au plus 25 est
25
X 20k
e−20 = 0, 888.
k!
k=0
0.12
0.1
0.08
0.06
0.04
0.02
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
Cependant, f (x) n’est pas une probabilité et il est possible que f (x) > 1.
Puisque, si ∆x > 0 est petit, on a
Z x+∆x/2
∆x ∆x
P x− <X ≤x+ = f (t) dt ≈ f (x)∆x,
2 2 x−∆x/2
26
variables continues un rôle analogue à celui que la fonction de masse joue
pour les variables discrètes, les intégrales remplaçant les sommes.
et sa variance est
Z +∞
V(X) = (x − E(X))2 f (x) dx.
−∞
27
a les mêmes unités que la variable. Une variable d’espérance nulle et de
variance unité est dite centrée réduite.
Ainsi,
V(X) = E(X 2 ) − E(X)2 .
Cela signifie que tout évènement dont la définition ne fait intervenir que X
est indépendant de tout évènement dont la définition ne fait intervenir que
Y.
Lorsque les variables X et Y ne sont pas indépendantes, les probabilités
qui leur sont associées peuvent être calculées au moyen des fonctions de
densité conditionnelles :
f (x, y) f (x, y)
fX/Y (x/y) = et fY /X (y/x) = .
fY (y) fX (x)
28
Si g : R2 → R est une fonction continue, Z = g(X, Y ) est une nouvelle
variable aléatoire continue dont on peut calculer l’espérance mathématique
au moyen de la formule
Z +∞ Z +∞
E(Z) = g(x, y)f (x, y) dxdy.
−∞ −∞
Exemple. Si g(x, y) = x + y, on a
Z +∞ Z +∞
(x + y)f (x, y) dxdy
−∞ −∞
Z +∞ Z +∞ Z +∞ Z +∞
= xf (x, y) dxdy + yf (x, y) dxdy
−∞ −∞ −∞ −∞
et
E(X + Y ) = E(X) + E(Y ).
Si g(x, y) = xy et si les variables sont indépendantes, on a
Z +∞ Z +∞ Z +∞ Z +∞
xyf (x, y) dxdy = xyfX (x)fY (y) dxdy
−∞ −∞ −∞ −∞
Z +∞ Z +∞
= xfX (x)dx yfY (y)dy
−∞ −∞
et
E(XY ) = E(X)E(Y ).
29
On a
b+a (b − a)2
E(X) = et V(X) = .
2 12
Typiquement, X est un nombre réel choisi au hasard dans l’intervalle (a, b).
De façon semblable, on dit que le vecteur aléatoire (X, Y ) suit une loi
uniforme dans le domaine D ⊆ R2 si
aire 1de D si (x, y) ∈ D;
f (x, y) =
0 sinon.
Exemple. Supposons que la fréquence des trains sur une ligne de métro
soit d’un toutes les 7 minutes. Alors le temps d’attente X de la prochaine
rame pour un usager sera une variable aléatoire uniforme sur l’intervalle
(0, 7) et il attendra en moyenne 3, 5 minutes. S’il attend depuis 2 minutes,
la probabilité qu’il attende encore 2 minutes est
P {X > 4} 3/7
P {X > 4/X > 2} = = = 0, 6.
P {X > 2} 5/7
30
sont p
a+c± (a − c)2 + 4b2
.
2
Supposons que A et C soient des variables aléatoires uniformes et indépendantes
sur l’intervalle (0, 2). Alors la fonction de densité de probabilité du vecteur
aléatoire (A, C) sera
1/4 si 0 < x, y < 2;
f (a, c) =
0 sinon.
où (X, Y ) est un vecteur aléatoire uniforme dans le carré [0, 1]×[0, 1] puisque
l’intégrale et la probabilité sont toutes deux égales à l’aire sous la courbe
y = f (x). On peut donc estimer l’intégrale en générant un grand nombre
de points au hasard dans le carré et en prenant pour valeur de l’intégrale la
proportion de ceux qui satisfont l’inégalité. Ainsi
Z 1
2
e−x /2 dx = 0, 856.
0
31
c
2
1.5
1
1
c
a
0.5
a
0.5 1 1.5 2
λe−λx si x > 0;
f (x) =
0 sinon.
32
est le nombre de réalisations du phénomène durant un temps x, Y suit une
loi de Poisson de paramètre λx et, si x > 0,
d’où
−f (x) = −λe−λx .
On a
1 1
E(X) = et V(X) = 2 .
λ λ
Le moment à partir duquel on commence à mesurer le temps d’attente n’a
aucune importance. En effet, une variable exponentielle est « sans mémoire ».
On a
P {X > x + t} e−λ(x+t)
P {X > x + t / X > t} = = = e−λx = P {X > x}.
P {X > t} e−λt
33
d’une variable continue prenant toutes les valeurs réelles. On peut montrer
que, quels que soient a et b,
( ) Z b
Y − np 1 2
lim P a < p ≤b = √ e−x /2 dx
n→+∞ np(1 − p) 2π a
(théorème de de Moivre-Laplace).
0.08
0.06
0.04
0.02
10 20 30 40 50 60
P {Z > zα } = 1 − Φ(zα ) = α.
34
On a
X = σZ + µ
et
P {X > 3} = 1 − Φ(1) = 0, 159.
35
0.4
0.3
0.2
aire Α
0.1
-4 -2 2 4
-0.1 zΑ
donc
1 1
f (x) = √ √ e−x/2 .
2π x
36
0.1
0.08
0.06
0.04 aire Α
0.02
5 10 15 20
-0.02 Χ2Α,8
χ2n /n
Fn,m =
χ2m /m
suit une loi de Fisher-Snedecor à n et m degrés de liberté. On a
m 2m2 (n + m − 2)
E(Fn,m ) = et V(Fn,m ) = .
m−2 (m − 2)2 n(m − 4)
37
0.3
0.2
aire Α
0.1
-4 -2 2 4
-0.1 tΑ,5
0.6
0.4
0.2 aire Α
2 4 6 8
FΑ,8,5
38
3 Sommes de variables aléatoires
Dans ce chapitre, nous obtenons certaines propriétés des sommes de va-
riables aléatoires indépendantes et nous étudions le comportement de ces
sommes lorsque le nombre de termes tend vers l’infini.
Cette relation reste valable si les variables sont continues comme on l’a vu
mais peut ne pas être vraie si les variables ne sont pas indépendantes.
39
où
1 si on obtient une boule rouge au k ième tirage
Xk =
0 sinon.
Alors
R
E(Xk ) =
B
et
n
X R
E(X) = E(Xk ) = n .
B
k=1
où
1 si la j ième boule rouge est tirée
Yj =
0 sinon.
Alors
1 B−1
1 n−1 n
E(Yj ) = =
B B
n
et on a encore
R
X R
E(X) = E(Yj ) = n .
B
j=1
La covariance de X et Y est
40
et leur coefficient de corrélation est
COV(X, Y )
ρ(X, Y ) = .
σ(X)σ(Y )
|ρ(X, Y )| ≤ 1
41
En général, si X1 , X2 , . . . , Xn sont des variables aléatoires conjointement
distribuées, on a
n n
!
X X X
V Xk = V(Xk ) + 2 COV(Xi , Xj )
k=1 k=1 1≤i<j≤n
où
1 si on obtient une boule rouge au k ième tirage
Xk =
0 sinon.
Les variables Xk sont indépendantes et
R R
V(Xk ) = 1−
B B
donc
n
X R R
V(X) = V(Xk ) = n 1− .
B B
k=1
Si les tirages ont lieu sans remise, posons
R
X
X= Yj
j=1
où
1 si la j ième boule rouge est tirée
Yj =
0 sinon.
Les variables Yj ne sont pas indépendantes. On a
n n
V(Yj ) = 1−
B B
42
et
L’inégalité de Tchebychev.
Soient X une variable aléatoire et a > 0. Alors
V(X)
P {|X − E(X)| ≥ a} ≤ .
a2
43
En effet, en vertu de l’inégalité de Markov,
Cette loi des grands nombres peut être déduite de l’inégalité de Tcheby-
chev. On a
X1 + X2 + · · · + Xn
E =µ
n
et, désignant par σ 2 la variance commune des variables Xk ,
σ2
X1 + X2 + · · · + Xn
V =
n n
σ2
X1 + X2 + · · · + Xn
P − µ ≥ ≤ 2
n n
d’où le résultat.
44
par n(E) le nombre de fois où E s’est produit lors des n premières épreuves,
de poser
n(E)
P {E} = lim .
n→+∞ n
µk = E(X k )
et la fonction
+∞
tX
X tk
ϕX (t) = E e = µk
k!
k=0
s’appelle fonction génératrice des moments car :
dk
µk = k ϕX (t) .
dt t=0
Ainsi
E(X) = ϕ0X (0) et V(X) = ϕ00X (0) − ϕ0X (0)2 .
45
on a, en vertu de la première propriété,
2 /2
ϕX (t) = eµt+(σt) .
t n
ϕ √
n
46
et il faut vérifier que n
t 2 /2
lim ϕ √ = et
n→+∞ n
c’est-à-dire que
ln ϕ √t
n t2
lim = .
n→+∞ 1/n 2
√
On y arrive en posant x = 1/ n et en appliquant deux fois la règle de
l’Hospital à l’origine.
47
ce qui est pratiquement égale à
( )
1000, 5 − 500 29/12
P Z> √ p = 1 − Φ(3, 114) = 0, 999.
500 1283/144
48
4 L’échantillon statistique
Supposons que l’on s’intéresse à une caractéristique numérique X des in-
dividus ω d’une population Ω. Cette caractéristique X est considérée comme
une variable aléatoire de loi L inconnue. Si on prélève suivant les règles de
l’art un échantillon de taille n de cette population, on obtiendra n variables
aléatoires indépendantes et de même loi L, X1 , X2 , . . . , Xn . Une statistique
est une variable aléatoire calculée à partir de cet échantillon. Les statistiques
les plus usitées sont la moyenne X et la variance S 2 de l’échantillon, définies
respectivement par
n
1X
X= Xk
n
k=1
et par
n
1 X
S2 = (Xk − X)2 .
n−1
k=1
X −µ
√
σ/ n
est pratiquement normale standard.
Dans le cas (usuel en statistique) où l’on suppose que L est une loi
normale, pour tout n,
49
1. la variable
X −µ
Z= √
σ/ n
suit une loi normale standard ;
2. la variable
S2
χ2n−1 = (n − 1)
σ2
suit une loi du khi-deux à n − 1 degrés de liberté ;
3. les variables X et S 2 sont indépendantes ;
4. la variable
X −µ
Tn−1 = √
S/ n
suit une loi de Student à n − 1 degrés de liberté.
on a en effet
n 2 2
S2 X
Xk − µ X −µ
(n − 1) 2 = − √
σ σ σ/ n
k=1
et
X −µ Z
√ =q .
S/ n χ2n−1 /(n − 1)
50
5 Estimation des paramètres d’une distribution
Pour estimer un paramètre θ d’une distribution, on calcule d’abord une
valeur à partir de l’échantillon obtenu et on construit ensuite autour de cette
valeur un intervalle dans lequel on a une certaine confiance de le trouver.
p̂ = X.
Puisque
E(p̂) = µ,
p̂ est un estimateur non biaisé pour µ.
51
5.1.2 Moyenne et variance d’une variable normale
La fonction de vraisemblance est
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
−n/2 −n
(2π) σ exp −
2σ 2
et son logarithme est
n n (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
− log 2π − log σ 2 − .
2 2 2σ 2
En annulant les dérivées partielles par rapport à µ et par rapport à σ 2 de
cette expression, on obtient les estimateurs à vraisemblance maximale
µ̂ = X
et
c2 = n − 1 S 2 .
σ
n
On remarque que l’estimateur pour la variance est biaisé.
52
est un intervalle de confiance de seuil 1 − α pour µ et que
σ
D1−α = x − zα √ , +∞
n
et
σ
G1−α = −∞ , x + zα √
n
sont des intervalles de confiance de seuil 1 − α à droite et à gauche respec-
tivement pour µ.
µ̂ = x = 149, 25
X −µ
√
S/ n
53
suit une loi de Student à n − 1 degrés de liberté. On en déduit comme
précédemment que, lorsque les valeurs x1 , x2 , . . . , xn des variables X1 , X2 , . . . , Xn
ont été observées et que leur moyenne x et leur variance s2 ont été calculées,
s s
I1−α = x − tα/2,n−1 √ , x + tα/2,n−1 √
n n
µ̂ = x = 149, 25
s2 = 19, 5333.
54
et un intervalle de confiance de seuil 90% pour µ serait
s s
I0,90 = x − t0,05, n−1 √ , x + t0,05, n−1 √
n n
= (147, 339 , 151, 161).
c) La variable
S2
(n − 1)
σ2
suit une loi du khi-deux à n − 1 degrés de liberté. Donc
( ) ( )
2 S2 S2 2
1 − α = P σ < (n − 1) 2 = P (n − 1) 2 <σ
χ1−α,n−1 χα,n−1
et ( )
S2 S2
1−α=P (n − 1) < σ 2 < (n − 1) .
χ2α/2,n−1 χ21−α/2,n−1
Lorsque les valeurs x1 , x2 , . . . , xn des variables X1 , X2 , . . . , Xn ont été ob-
servées et que leur variance s2 a été calculée, on exprime les probabilités
précédentes en disant que
!
s2 s2
I1−α = (n − 1) 2 , (n − 1) 2
χα/2,n−1 χ1−α/2,n−1
et !
S2
G1−α = 0 , (n − 1)
χ21−α,n−1
sont des intervalles de confiance de seuil 1 − α à droite et à gauche respec-
tivement pour σ 2 .
55
Un intervalle de confiance de seuil 95% pour la variance inconnue σ 2 de
la teneur en calories des saucisses à hot dog calculé à partir de l’échantillon
de taille n = 16 précédent est
!
s2 s2
I0,95 = (n − 1) 2 , (n − 1) 2
χ0,025,n−1 χ0,975,n−1
= (8, 91869 , 32, 8972).
suit une loi normale standard. Par conséquent, les intervalles de confiance
de seuil 1 − α pour la différence µx − µy sont, les variables X1 , X2 , . . . , Xn et
Y1 , Y2 , . . . , Ym ayant été observées et les moyennes x et y ayant été calculées,
s s
2 σ 2 2 σ 2
σx y σx y
I1−α = x − y − zα/2 + , x − y + zα/2 + ,
n m n m
s
σx2 σy2
D1−α = x − y − zα + , +∞
n m
et s
σx2 σy2
G1−α = −∞ , x − y + zα + .
n m
56
X 27 30 26 27 22 22 33 21 27 32
Y 20 17 18 17 18 17 19 26 24 21 22 22
Sp2
(n + m − 2)
σ2
où
(n − 1)Sx2 + (m − 1)Sy2
Sp2 =
n+m−2
suit une loi du khi-deux à n + m − 2 degrés de liberté, donc la variable
X − Y − (µx − µy )
q
Sp n1 + m1
57
Exemple. Les beignes (fin).
Le pourcentage en sucre des beignes produits dans une franchise d’une
chaı̂ne est une variable aléatoire normale. Deux échantillons indépendants
(pris deux jours différents) ont donné les résultats suivants :
X 27 30 26 27 22 22 33 21 27 32
Y 20 17 18 17 18 17 19 26 24 21 22 22
En considérant que ces échantillons sont issues de variables aléatoires nor-
males X et Y de moyennes inconnues mais de même variance, on peut en
déduire un intervalle de confiance à gauche de seuil 90% pour la différence
µx − µy de ces moyennes. C’est
r !
1 1
G0,90 = −∞ , x − y + t0,05, n+m−2 sp +
n m
r !
1 1
= −∞ , 26, 7 − 20, 0833 + 1, 32534 3, 5568 +
10 12
= (−∞ , 4, 2684).
puisque
s r
(n − 1)s2x + (m − 1)s2y 9 17, 3444 + 11 8, 81061
sp = = = 3, 5568.
n+m−2 20
X −p
p √
p(1 − p)/ n
58
et ( r r )
p(1 − p) p(1 − p)
1−α≈P X − zα/2 < p < X + zα/2 .
n n
En remplaçant p par son estimateur à vraisemblance maximum certaines de
ses apparitions dans ces relations, on obtient
( r )
1
1 − α ≈ P p < X + zα X(1 − X) ,
n
( r )
1)
1−α≈P X − zα X(1 − X) < p
n
et
( r r )
1 1
1−α≈P X − zα/2 X(1 − X) < p < X + zα/2 X(1 − X) .
n n
59
De façon semblable, les points
r
x(1 − x) y(1 − y)
x − y ± zα/2 +
n n
sont les extrémités d’un intervalle de confiance approximatif de seuil 1 − α
pour la différence des paramètres px − py de deux variables de Bernoulli.
Exemple. Si 450 des 800 personnes interwievées ont exprimé leur soutien
au candidat A, un intervalle de confiance approximatif de seuil 95% pour la
proportion p des électeurs qui voteront pour A est
r r !
x(1 − x) x(1 − x)
I0,95 = x − z0,025 , x + z0,025
n n
= (0, 533651 , 0, 591349)
(un appui de 56% avec une marge d’erreur de 3% dix-neuf fois sur vingt). Si
l’on avait observé la même proportion d’appuis avec un échantillon de 1600
personnes, cet intervalle serait réduit à
60
6 Tests d’hypothèses sur les paramètres d’une dis-
tribution
Un test d’hypothèse au seuil de signification α d’une hypothèse H0
concernant un paramètre θ d’une distribution doit être tel que
H0 : µ = µ0 ,
H1 : µ 6= µ0 ,
on utilise la statistique
X − µ0
ST T = √ .
σ/ n
Lorsque les valeurs x1 , x2 , . . . , xn des variables X1 , X2 , . . . , Xn ont été ob-
servées et que
x − µ0
stt = √
σ/ n
a été calculée, on rejette H0 au seuil de signification α si
61
0.4
0.3
0.2
-4 -2 z 2Α z 2Α 2 4
p-valeur ≤ α.
H0 : µ = µ0
contre l’alternative
H1 : µ > µ0 ,
on utilise la même statistique et on rejette si
stt > zα .
H0 : µ = µ0
contre l’alternative
H1 : µ < µ0 ,
on utilise la même statistique et on rejette si
62
La p-valeur du test est
P {Z < stt}.
Exemple. La productivité.
La productivité en 2004 d’une usine d’un certain groupe industriel est
considérée comme une variable aléatoire distribuée normalement avec moyenne
4600 et écart-type 500. En 2005, on a observé les productivités suivantes dans
les neuf usines du groupe :
H0 : µ = µ0 ,
H1 : µ 6= µ0 ,
on utilise la statistique
X − µ0
ST T = √ .
S/ n
Lorsque les valeurs x1 , x2 , . . . , xn des variables X1 , X2 , . . . , Xn ont été ob-
servées et que
x − µ0
stt = √
s/ n
63
a été calculée, on rejette H0 si
p-valeur ≤ α.
H0 : µ = µ0
contre l’alternative
H1 : µ > µ0 ,
on utilise la même statistique et on rejette si
H0 : µ = µ0
contre l’alternative
H1 : µ < µ0 ,
on utilise la même statistique et on rejette si
64
En ne faisant plus l’hypothèses que la variance est restée la même, pour
tester H0 : µ = 4600 contre H1 : µ > 4600, on utilise la statistique
X − µ0
ST T = √
S/ n
dont la valeur est ici
5416 − 4600
stt = √ = 3, 50135.
699, 159/ 9
La p-valeur du test est
P {T8 > 3, 50135} = 0, 00403156
et il faut encore rejeter H0 .
65
6.2.2 Variances inconnues égales
Pour tester l’hypothèse
H0 : µx = µy
contre l’alternative
H1 : µx 6= µy ,
on utilise la statistique
X −Y
ST T = q .
Sp n1 + 1
m
p-valeur ≤ α.
H0 : µx = µy
contre l’alternative
H1 : µx 6= µy ,
on utilise la statistique
X −Y
ST T = q
Sx2 Sy2
n + m
66
qui est, sous H0 et pour de grandes valeurs de n et m, pratiquement dis-
tribuée normalement. Lorsque les valeurs x1 , x2 , . . . , xn et y1 , y2 , . . . , ym des
variables X1 , X2 , . . . , Xn et Y1 , Y2 , . . . , Ym ont été observées et que
x−y
stt = q
s2x s2y
n + m
p-valeur ≤ α.
Exemple. La production.
Pour vérifier si une certaine caractéristique est la même sur les pièces
produites par deux machines différentes, on prélève deux échantillons de
taille n = 200 et m = 300 respectivement. Pour le premier échantillon, on
obtient x = 10, 5 et s2x = 4, 5 et pour le second, y = 9, 9 et s2y = 6, 1 pour la
mesure de cette caractéristique. Utilisant la statistique
X −Y
q
Sx2 Sy2
n + m
stt = 1, 93272
et la p-valeur
p-valeur = P {|Z| > |stt|} = 0, 0532707.
On doit donc accepter H0 au seuil 0, 05 et rejeter H0 au seuil 0, 10.
67
6.2.4 Variables jumelées
Pour tester l’hypothèse
H0 : µx = µy
contre l’alternative
H1 : µx 6= µy ,
lorsque les variables Xk et les variables Yk sont jumelées, on considère les
variables Wk = Xk − Yk et on teste l’hypothèse
H00 : µw = 0
contre
H10 : µw 6= 0
en considérant la statistique
W
ST T = √ .
Sw / n
Lorsque les valeurs w1 , w2 , . . . , wn des variables W1 , W2 , . . . , Wn ont été ob-
servées et que
w
stt = √
sw / n
a été calculée, on rejette H0 si
p-valeur ≤ α.
68
X 10,6 9,8 11,6 11,0 13,0 10,0 9,8 9,8 10,6 10,0
Y 9,4 10,8 11,0 9,2 8,2 10,6 10,2 10,0 10,6 10,2
Pour tester l’hypothèse H0 : µx = µy contre l’hypothèse H1 : µx > µy , on
considère les variables Wk = Xk − Yk et la statistique
W
ST T = √ .
Sw / n
On obtient ici
stt = 1, 1146
et la p-valeur
p-valeur = P {T9 > stt} = 0, 14695.
Il faut donc accepter H0 . (Données simulées).
H1 : σ 6= σ0 ,
on utilise la statistique
(n − 1)S 2
ST T = .
σ02
Lorsque les valeurs x1 , x2 , . . . , xn des variables X1 , X2 , . . . , Xn ont été ob-
servées et que
(n − 1)s2
stt =
σ02
a été calculée, on rejette H0 si
/ χ21−α/2,n−1 , χ2α/2,n−1 .
stt ∈
p-valeur ≤ α.
69
0.1
0.08
0.06
0.02
5 10 15 20
-0.02 Χ1
2 Α
2 ,8 Χ2Α2 ,8
H0 : σ x = σ y ,
H1 : σx 6= σy ,
on utilise la statistique
Sx2
ST T = .
Sy2
Lorsque les valeurs x1 , x2 , . . . , xn et y1 , y2 , . . . , ym des variables X1 , X2 , . . . , Xn
et Y1 , Y2 , . . . , Ym ont été observées et que
s2x
stt =
s2y
p-valeur ≤ α.
70
Exemple. La production (fin).
On teste aussi l’hypothèses H0 : σx = σy versus l’alternative H1 : σx > σy
pour la nouvelle technique de production à l’aide de la statistique
Sx2
ST T = .
Sy2
On obtient ici
stt = 1, 4314
et la p-valeur
ST T = X1 + X2 + · · · + Xn .
p-valeur ≤ α.
71
7 Tests de validité
On peut aussi faire des hypothèses sur le type d’une distribution ou sur
l’indépendance de deux variables aléatoires conjointement distribuées.
H0 : P {Y = i} = pi pour 1 ≤ i ≤ k
p-valeur ≤ α.
72
S’il est nécessaire d’estimer m quantités pour obtenir des estimateurs p̂i ,
k
X (Xi − np̂i )2
ST T =
np̂i
i=1
H0 : P {X = i, Y = j} = P {X = i}P {Y = j} pour 1 ≤ i ≤ r et 1 ≤ j ≤ s
73
à partir d’un échantillon de taille n où
s
X r
X
Ni = Ni,j et Mj = Ni,j .
j=1 i=1
Ni Mj
p̂i = et q̂j =
n n
et on considère la statistique
r X
s
X (Ni,j − np̂i q̂j )2
ST T = .
np̂i q̂j
i=1 j=1
p-valeur ≤ α.
74
La valeur de la statistique
2 X
5
X (Ni,j − np̂i q̂j )2
ST T =
np̂i q̂j
i=1 j=1
est ici
(44 − 41)2 (48 − 47)2 (2 − 2)2 (2 − 5)2 (4 − 5)2
stt = + + + +
41 47 2 5 5
(38 − 41)2 (46 − 47)2 (2 − 2)2 (8 − 5)2 (6 − 5)2
+ + + + + = 4, 48158
41 47 2 5 5
et la p-valeur
P {χ24 > 4, 48158} = 0, 344737.
Il faut accepter H0 . (http ://www.stat.gouv.qc.ca).
75
8 La régression linéaire
Pour ajuster une droite y = a + bx à un nuage de données (xk , yk )
(1 ≤ k ≤ n), on utilise la droite des moindres carrés, celle qui minimise la
somme des carrés des erreurs commises :
n
X
(yk − a − bxk )2 .
k=1
En annulant les dérivées partielles de cette expression par rapport aux va-
riables a et b, on voit que les coefficients a et b sont en donnés par les
relations
y nk=1 x2k − x nk=1 xk yk
P P
a= P n 2
k=1 (xk − x)
et Pn
(x − x)(yk − y)
Pn k
b = k=1 2
.
k=1 (xk − x)
7500
7450
7400
7350
7300
7250
7200
Y = α + βx + E
76
(x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn ), sont
Y Sx,x − xSx,Y
A=
Sx,x
et
Sx,Y
B=
Sx,x
où l’on a posé
n
X n
X
Su,v = (uk − u)(vk − v) = uk vk − nuv.
k=1 k=1
En écrivant
n
X xk − x
B= Yk ,
Sx,x
k=1
on voit que
σ2
B∼N β,
Sx,x
et en écrivant
A = Y − Bx,
on obtient Pn
σ2 2
k=1 xk
A∼N α, .
nSx,x
Quant à SSR , on peut montrer qu’elle est indépendante de A et de B et que
SSR
∼ χ2n−2 .
σ2
77
8.2 Un test d’hypothèse
Pour tester l’hypothèse
H0 : β = 0
contre l’hypothèse alternative
H1 : β 6= 0,
on utilise la statistique
s
(n − 2)Sx,x
ST T = B
SSR
car
Sx,x B
σ
suit une loi normale standard et la relation
SSR
E =n−2
σ2
permet d’estimer σ. Les valeurs y1 , y2 , . . . , yn des variables Y1 , Y2 , . . . , Yn
ayant été observées et s
(n − 2)Sx,x
stt = b
ssR
ayant été calculée, on rejette H0 au seuil γ si
p-valeur ≤ α.
78
La droite des moindres carrés pour ces données est
puisque
n
1 (x − x0 )2
X 1 (x − xk )(x − x0 ) 2
A+Bx0 = + Yk ∼ N α + βx0 , σ + .
n Sx,x n Sx,x
k=1
79
puisque
1 (x − x0 )2
2
Y − A − Bx0 ∼ N 0, σ 1+ + .
n Sx,x
est partiellement expliquée par les variations des Yk dues aux variations des
xk et partiellement expliquée par les fluctuations aléatoires de Yk autour des
valeurs prédites par les xk , fluctuations mesurées par
n
X
SSR = (Yk − A − Bxk )2 .
k=1
80
Remarquons qu’au signe près, R est égal au coefficient de corrélation
Sx,y
r(x, y) = p
Sx,x Sy,y
Y = f (x, θ)
x 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
Y 165 175 186 207 230 252 302 370 444 527 606
où la population Y est en dizaines de milliers. En supposant une relation de
la forme
Y = eα+β x+E
où E ∼ N (0, σ 2 ), on obtient en appliquant la méthode des moindres carrés
aux données (x, log Y ) la courbe
Y = e−20,8636+0,0135986x .
(http ://www.un.org).
81
600
500
400
300
82
Index
arrangement, 6 permutation, 6
Poincaré, 11
Bayes, 14 principe d’inclusion-exclusion, 11
Bernoulli, 23 principe fondamental, 5
probabilité, 4
Cauchy-Schwarz, 41
probabilité conditionnelle, 13
coefficient de corrélation, 41
probabilités totales, 14
coefficient de détermination, 80
combinaison, 7 quantile, 34
covariance, 40
seuil de confiance, 53
dérangement, 12 seuil de signification, 61
de Moivre-Laplace, 34 statistique, 49
ecart-type, 19, 27 théorème binomial, 7
espérance mathématique, 19, 27 théorème multinomial, 8
estimateur, 51
estimateur à vraisemblance maximale, variable aléatoire, 18
25 variable centrée réduite, 20
évènement, 4 variance, 19, 27, 49
évènements indépendants, 16 vecteur aléatoire, 21, 28
Kolmogorov, 10
moyenne, 49
p-valeur, 61
Pearson, 72
83