Universite
2004-2005
===============================================
Les methodes doptimisation, cest-`a-dire de determination de minima ou de maxima, sont
utilisees dans de tr`es nombreux domaines : economique et gestion, conception optimale, automatique et robotique, traitement du signal,etc.... De plus les, probl`emes doptimisation sont
intimement lies aux principes variationnels de la mecanique et de la physique.
Lobjectif de ce cours est de donner les principaux resultats mathematiques concernant les
probl`emes de minimisation (ou plus generalement doptimisation). Ces resultats portent dune
part sur lexistence de minima, puis sur leur caracterisation par des conditions necessaires parfois suffisantes. Dans chaque chapitre on donnera quelques exemples qui illustrent limportance
de loptimisation, la variete des domaines dapplication concernes et la diversite des probl`emes
mathematiques formules comme probl`eme de minimisation.
===============================================
Ngalla DJITTE
Enseignant-Chercheur UFR SAT
ngalla@ugb.sn,ngalla@ceremade.dauphine.fr
Bureau FB01
Chapitre 1
Optimisation dans Rn
Dans Rn , on consid`ere le probl`eme doptimisation
min F (x)
xK
(1.1)
o`
u K est un sous-ensemble non vide de Rn et F est une fonction definie sur un ouvert U de
Rn contenant K.
1.1
G
en
eralit
es
xK
1.1.1
Exemples de probl`
emes doptimisation
`me 1 Trouver les rectangles inscrits dans un cercle de rayon 1 de surface maximale.
Proble
1.1.2
Questions communes `
a tous ces probl`
emes
1.2
Th
eor`
emes dexistence
ore
`me 1 (Weierstrass)
The
Si K est un sous-ensemble non vide compact de Rn et si F : Rn R est une application
continue, alors il existe x
1 K et x
2 K tels que :
F (
x1 ) = min F (x)
xK
F (
x2 ) = max F (x)
xK
lim
kxk+
F (x) = +
ore
`me 2 Si K est un sous-ensemble ferme non vide de Rn et si F : Rn R est une
The
application coercive et continue alors il existe x
K tel que
F (
x) = min F (x)
xK
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
(1.2)
Autrement dit K est convexe sil contient tout segment reliant deux quelconques de ses
points.
finition 4 On dit que la fonction F : K Rn est convexe si K est convexe et si :
De
(x, y) K K t [0, 1] F (tx + (1 t)y) tF (x) + (1 t)F (y)
(1.3)
F est dite strictement convexe si linegalite (1.3) est stricte lorsque x 6= y et t ]0, 1[.
Proposition 2 Si K est un sous-ensemble convexe non vide de Rn et si F : Rn R
est une application strictement convexe (concave) sur K alors F a au plus un minimum
(maximum) global sur K.
1.3
1.3.1
Conditions doptimalit
e
Diff
erentiabilit
e dans Rn
Nous rappelons dans cette section les notions de base du calcul differentiel dans R n .
1.3.1.1
D
eriv
ees, diff
erentielles
(1.4)
t0+
(1.5)
existe. Quand d est le i`eme vecteur de base ei de Rn , on dit que F admet une derivee
F
partielle par rapport a` xi et on la note
(x0 ). On a donc
xi
lim
t0+
(1.6)
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
F
F
(x0 ), ,
(x0 ))
x1
xn
On a alors
dF (x0 )(h) =< F (x0 ), h >=
n
X
F
(x0 )hi h Rn .
xi
(1.7)
i=1
Diff
erentielle dune fonction u de Rn dans Rn
Soit u une fonction de plusieurs variables x = (x1 , , xn ) `a valeurs dans Rn :
u : Rn Rn , u(x) = (u1 (x), , un (x))
ui
Du(x) =
(x)
xj
1i,jn
D
eriv
ee seconde dune fonction de Rn dans R.
On peut definir la derivee seconde de F comme la derivee de dF . Plus precisement
finition 7 On dit que F : Rn est differentiable sur un sous ensemble U de Rn , si
De
F est differentiable en tout point x de U .
Lapplication derivee dF : U Rn associe `a un point x de U , le vecteur dF (x) = F (x).
cette application est definie dans Rn et prend ses valeurs dans Rn . Si elle est meme differentiable
en un point x0 de U , on dit que F est deux fois derivable en x0 . Dans ce cas, la derivee seconde
de F en x0 est definie comme la derivee premi`ere de dF . Dapr`es le paragraphe precedent elle
est identifiable `a une matrice carree appelee matrice Hessienne et definie par :
2
F
HF (x0 ) =
(x0 )
xi xj
1i,jn
o`
u
2F
F
2F
(x0 ) =
(x0 ) =
(x0 )
xi xj
xj xi
xi xj
finition 8 On dit que F est de classe C 1 (ou tout simplement C 1 ) sur U si elle est
De
differentiable sur U et sa derivee est continue sur U .
finition 9 On dit que F est C 2 sur U si elle est deux fois differentiable sur U et si sa
De
derivee seconde est continue sur U .
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
1.3.2
Conditions n
ecessaires du premier ordre
finition 10 Soit x
De
un point de K. On appelle direction admissible en x
, un vecteur d
(direction) le long du quel on pourra se deplacer en partant de x
tout en restant dans K,
cest-`a-dire tel quil existe > 0 tel que le segment [
x, x
+ d] K. On notera D ad (
x)
lensemble des directions admissibles en x
1.3.3
Conditions n
ecessaires du second ordre
finition 11 Soit A une matrice symetrique nn. On dit que A est semi-definie positive
De
et on note A 0, quand
xT Ax 0, x Rn .
On dit que A est definie positive et on note A > 0, quand
xT Ax 0, x Rn , x 6= 0.
Cette definition peut etre reliee aux valeurs propres par :
Proposition 4 Soit A une matrice symetrique n n. On note par {i , i = 1, n} ses
valeurs propres (reelles). On a les equivalences suivantes :
A 0 i 0, i
A > 0 i > 0, i
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
ore
`me 4 (CNSO)
The
Si F est C 2 sur un ouvert contenant K et si x
est un minimum local de F sur K, alors :
1. pour toute direction admissible d en x
, on a F (
x) d 0.
2. Si F (
x) d = 0, alors < HF (
x) d, d > 0, cest-`
a-dire HF (
x) est semi-definie-positive
sur lensemble des directions admissibles.
Dans le cas o`
u x
est un point interieur de K, on peut enoncer une condition suffisante de
minimum local.
1.3.4
ore
`me 5 Si F est C 2 sur un ouvert contenant K et si x
The
, un point interieur de K,
est tel que F (
x) = 0 et HF (
x) est definie positive, alors x
est un minimum local strict
de F sur K.
Proposition 5 Si F est C 2 sur un ouvert contenant K et si F (
x) = 0, si HF (
x) admet
au moins une valeur propre strictement positive et une valeur propre strictement negative,
alors x
est un point-col local de F .
1.3.5
1.3.5.1
Conditions n
ecessaires et suffisantes doptimalit
e dans le cas convexe
Fonctions convexes
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
Alors F est convexe si et seulement si (x, y) K 2 , xy est convexe sur [0, 1].
2. Si F est C 2 sur un ouvert contenant K, alors elle est convexe sur K si et seulement si
pour tout x K, la matrice HF (x) est semi definie positive dans K.
3. Si F est C 1 sur un ouvert contenant K, alors elle est fortement convexe de rapport
a > 0 sur K si et seulement si
(F (y) F (y)) (y x) aky xk2 , x, y K
n
X
n
xi ln(xi ) est convexe,
Exemple 2 La fonction F : R+ R qui a` x associe F (x) =
i=1
puisque son Hessien est une matrice diagonale dont le i-i`eme terme vaut 1/u i > 0.
ore
`me 6 (CNS doptimalite dans le cas convexe)
The
1. Si F est convexe sur le convexe K, alors tout minimum local est aussi global.
2. Si F est C 1 et convexe sur le convexe K, tout point x
de K tel que :
F (
x) (y x) 0, y K
est un minimum global de F sur K, et reciproquement.
ore
`me 7 Soit F : K Rn R strictement convexe sur K. Le minimum de F sur
The
K, sil existe, est unique.
1.3.6
Conditions n
ecessaires et suffisantes doptimalit
e dans le cas elliptique
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
1.3.7
Les m
ethodes de descente
xRn
1.3.7.1
Principe des m
ethodes de descente
(1.8)
Le pas tk obtenu ainsi sappelle le pas optimal. L a fonction etant differentiable, on a alors
necessairement :
0 (tk ) = F (xk + tk dk ) dk = 0.
1.3.7.2
M
ethodes du gradient
dRn ,kdk=1
0 (0).
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
10
F (
x)
kF (
x)k
Il ya de nombreuses facon dutiliser cette direction de descente. On peut par exemple utiliser
un pas fixe `a priori tk = > 0, k.
On obtient alors la methode du gradient `a pas constant :
dk = F (xk )
xk+1 = xk + dk
(1.9)
(1.10)
Sous certaines hypoth`eses de regularite (par exemple si F est C 2 ) cette methode converge si
est choisi assez petit.
La m
ethode du gradient `
a pas optimal
La methode du gradient `a pas optimal consiste `a faire les iterations suivantes :
dk = F (xk ),
xk+1 = xk + tk dk ,
(1.11)
(1.12)
o`
u tk est choisi de sorte que :
tk = argmint>0 F (xk + tdk )
` Pas optimal)
Algorithme 1 (Algorithme du Gadient a
en partant de de x0 tel que F (x0 ) = 0, on peut determiner
x1 = x0 t0 F (x0 ), avec t0 = arg mint>0 F (x0 tF (x0 )),
Le point x1 obtenu sera le meilleur possible dans la direction F (x0 ). Cest ce que
lon resume par gradient a` pas optimal, t0 est le pas optimal correspondant.
a
` letape k, connaissant xk , on calcule xk+1 par :
xk+1 = xk tk F (xk ), avec tk = arg mint>0 F (xk tF (xk ))
on decide darreter lalgorithme lorsquun test de convergence est verifie.
Test de convergence : On peut decider de stopper les iterations si kx k+1 xk k < 1 , 1
etant un seuil fixe `a lavance. Ce test evite daccumuler des iterations qui napportent plus rien
`a la qualite de la solution trouvee. Il ne donne en revance, aucune assurance sur loptimalite
k
X
1
eventuelle de la solution trouvee. Par exemple la suite xk =
verifie ce test des que
i
i=1
1/k + 1 < 1 . Un autre test provenant des CNPO est darreter lorsque kF (xk )k < 2 . Il reste
alors `a verifier que le xk corespondant est bien un minimum, car ca peut etre un point-selle.
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
11
F (xk ) d
,
dTk Adk
qui est positif car dk est une direction de descente et A est definie positive.
La methode du gradient `a pas optimal peut donc secrire (dans le cas quadratique)
dk
= b Axk
2
kk
tk
= dkd
(1.13)
T Ad
k
k
xk+1 = xk + tk dk ,
ore
`me 9 Si F est elliptique alors lalgorithme du gradient a
The
` pas optimal converge
vers lunique minimum.
La m
ethode du gradient conjugu
e
finition 16 Soit A une matrice symetrique n n, definie positive. On dit que deux
De
vecteurs x et y de Rn sont A-conjugues (ou conjugues par rapport a` A) sils verifient
xT Ay = y T Ax = 0.
(1.14)
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
12
Ce
Considerons dans R2 une methode de descente appliquee `a la minimisation dune forme
quadratique definie par :
1
F (x) = xT Ax bT x
2
alors
x1 = x 0 + t 0 d0 ,
x2 = x 1 + t 1 d1 ,
avec d0 et d1 deux directions A-conjuguees et t0 et t1 determines de facon optimale. On a
donc les relations suivantes :
F (x1 ) d0 = (Ax1 b) d0 = 0
de plus on a :
F (x2 ) d1 = (Ax2 b) d1 = 0
F (x2 ) d0 = 0
x0
donne
(1.15)
xk+1 = xk + tk dk , tk optimal
On va montrer que la propriete verifiee pour n = 2, `a savoir xn = x
o`
ux
realise le minimum
1 T
de F (x) = x Ax bT x est valable pour tout n.
2
Un lemme fondamental
On se donne `a priori une famille {d0 , d1 , , dn } de directions conjugues et on note
Ek = Vect(d0 , , dk1 ),
le sous espace vetoriel engendre par les vecteurs d0 , d1 , , dk1 . Lalgorithme de direction
conjugue construit iterativement un vecteur xk verifiant
xk x 0 + E k .
Lemme 1 Le vecteur xk defini par lalgorithme (1.15) realise le minimum de
F (x) =
1 T
x Ax bT x
2
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
13
(1.16)
(1.17)
(1.18)
(1.19)
On va maintenant montrer que lalgorithme ci-dessus definit bien une methode de directions
conjuguees.
ore
`me 10 A une iteration k quelconque de lalgorithme o`
The
u loptimum nest pas encore
atteint, cest-`
a - dire gk 6= 0, on a :
tk =
sk =
=
gkT gk
,
dTk Adk
(1.20)
T (g
gk+1
k+1 gk )
gkT gk
T g
gk+1
k+1
gkT gk
(1.21)
(1.22)
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
Chapitre 2
min F (x),
xRn
(P C)
g(x) 0,
h(x) = 0,
(2.1)
o`
u les fonctions F, g et h sont differentiables au moins une fois.
Dans ce chapitre nous allons enoncer les conditions doptimalite associees au probl`eme
(PC). Nous nous interesserons precisement dans ce chapitre aux probl`emes
PCE
PCI
2.1
Contraintes d
egalit
e
Considerons le probl`eme
(P CE)
minn F (x),
xR
h(x) = 0,
o`
u h : Rn Rm est differentiable. On note
C = {x Rn | h(x) = 0}
14
(2.2)
2.1.1
2.1.1.1
15
Conditions n
ecessaires du premier ordre
Contraintes d
egalit
e lin
eaires
minn F (x),
xR
(P CEL)
Ax b = 0.
(2.3)
o`
u A est une matrice m n avec m < n et b Rm . On notera
C = {x Rn | Ax b = 0}.
Contraintes d
egalit
e non lin
eaires
Une courbe de Rn est une fonction x telle quil existe > 0 telle que x(t) soit C 1 sur
] , [ et x(t) Rn . Soit x
C. Considerons une courbe x(t) definie pour t ] , [ et
verifiant
x(t) C, t ] , [,
x(0) = x
.
d
hi (x(t)) = hi (x(t)) x(t)
= 0, 1 i m.
dt
Si on note y = x(0)
(2.4)
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
16
(2.5)
x(0) = x
,
(2.6)
x(0)
= y.
(2.7)
H(0, 0) = h(
x)T h
x)
u
Puisque h
x) est de rang m, alors la matrice
H(0, 0) est inversible. On peut alors appliquer
u
le theor`eme des fonctions implicites : il existe un voisinage du point (0, 0) et une fonction u(t)
tels que
F (t, u) = 0 u = u(t).
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
17
= y + h(
x)u(t)
soit en t = 0
x(0)
= y + h(
x)u(0)
=0
dt
puisque h(x(t)) = 0, et donc en t = 0 la relation precedente prend la forme
d
h(x(t)) |t=0 = h(
x) y + h(
x)T h(
x) u(0)
= 0.
dt
Le premier terme du second membre est nul par hypoth`ese, et donc u(0)
= 0 puisque la matice
h(
x)T h
x)
est inversible. Donc x(0)
= y, soit y T (C, x
)
ore
`me 13 (Lagrange) Soit x
The
C verifiant (CQ). Si x
realise un minimum local
de F sur C, alors il existe un vecteur = (1 , , m ) Rm unique verifiant
F (
x) +
m
X
i=1
i hi (
x) = 0.
(2.8)
(2.9)
x(0) = x
,
(2.10)
x(0)
= y.
(2.11)
18
m
X
i=1
i hi (
x)
m
X
i hi (x)
(2.12)
i=1
Do`
u la version lagrangienne du theor`eme13
ore
`me 14 (Lagrange(bis)) Soit x
The
C verifiant (CQ). Si x
realise un minimum
m
local de F sur C, alors il existe un vecteur = (1 , , m ) R unique verifiant
L
=0
(
x, )
x
2.1.2
(2.13)
Condition n
ecessaire du second ordre
ore
`me 15 Soit x
The
C verifiant (CQ). Si x
realise un minimum local de F sur C,
m
o`
u 2xx L(
x, )
` la variable x de L au point (
x, )
2.1.3
Rm
ore
`me 16 (Conditions suffisantes de minimalite
) Soit x
The
C et soit
tel que
(
=0
Dx L(
x, )
(2.14)
> 0, y T (C, x
2xx L(
x, )
)
Alors x
est un minimum local de F sur C.
Preuve La preuve se fait par labsurde. Supposons que x
ne realise pas un minimum local de
F sur C. Il existe donc une suite (xn ) de C verifiant :
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
19
xn x
xn 6= x
, n
F (xn ) F (
x), n.
xn x
kxn x
k
(2.15)
tn = kxn x
k
(2.16)
dn =
Alors (dn ) est une suite de la sph`ere unite qui est compact, donc elle admet une suite extraite
encore notee (dn ) qui converge vers d 6= 0. On va montrer que d T (C, x
).
Posons :
Donc on xn = x
+ tn dn . Si on fait un deloppement de Taylor au voisinage de x
alors il existe
une fonction definie sur un voisinage de x
et [0, 1] tels (x) 0 quand x x
et
h(xn ) = h(
x) + tn Dh(
x).dn + tn kdn k(
x + tn dn )
(2.17)
Or h(xn ) = h(
x) = 0 car xn , x C, donc (2.17) entraine que :
tn Dh(
x).dn + tn kdn k(
x + tn dn ) = 0
(2.18)
tn 2
(Dx L(
x, )dn , dn ) + t2n kdn k2 n
2
(2.19)
F (xn ) F (
x)
0 car F (xn ) F (
x).
2
tn /2
(2.20)
2.2
Contraintes din
egalit
e
minn F (x),
xR
(2.21)
(P CI)
g(x) 0,
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
20
o`
u g : Rn Rm est differentiable (aucune condition sur m). On notera K, lensemble des
points admissibles, cest `a dire
K = {x Rn | g(x) 0}
Au point solution de (PCI) il va de soi que les contraintes effectivement actives verifierons
gi (x) = 0. Cependant, puisque lon ne sait pas `a priori quelles sont ces contraintes, le passage
de (PCI) `a un probl`eme du type (PCE) nest pas direct.
finition 21 On appelle contraintes saturees en x
De
, lensemble des indices i tel que
gi (
x) = 0, et on note
I(
x) = {i | gi (
x) = 0}.
On note alors S(
x), lensemble
S(
x) = {x Rn , gi (x) = 0, i I(
x)}
Le concept de direction admissible se definit comme suit :
finition 22 On dit que y Rn est une direction admissible en x
De
K, sil existe > 0
et une courbe x(t) verifiant
x(t) K, t ] , [,
x(0) = x
,
x(0)
= y.
On note par C(
x), lensemble des directions admissibles en x
.
On peut remarquer que si y Rn est une direction admissible en x
, alors, necessairement
gi (
x) y 0, i I(
x)
finition 23 On dit que x
De
K verifie la condition de qualification (CQ) si les vecteurs
{gi (
x), i I(
x)} sont lineairement independants
Lemme 2 Si x
verfie (CQ), alors alors on a :
gi (
x) y 0, y I(
x) y C(
x)
Proposition 17 Soit x
la solution de (PCI). Il existe > 0 tel que :
x B(
x, ), gi (x) < 0, i I(
x).
Par consequent x
est la solution du probl`eme
(
min F (x),
xB(
x,)
gi (x) = 0, i I(
x).
(2.22)
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
21
m
X
i=1
i gi (
x) = 0,
i 0, i = 1, , m,
i gi (
x) = 0, i = 1, , m.
(2.23)
(2.24)
(2.25)
Preuve Les conditions (2.23) et (2.25) sont une consequence directe du theor`eme de Lagrange,
car il suffit de prendre i = 0 pour i
/ I(
x). Montrons (2.24) par absurde. Supposons quil
existe k I(
x) tel que k < 0. On definit la surface :
Sk = {x | gi (x) = 0, i I(
x), i 6= k}
Soit y Rn tel que :
gi (
x) y = 0, i I(
x), i 6= k,
gk (
x) y = 1.
= y. On donc :
d
F (x(t)) | t=0 = F (
x) y,
dt
m
X
i gi (
x) y,
=
i=1
= k gk (
x) y = k < 0,
2.2.1
2.2.1.1
Exemples de probl`
emes
Distance dun point `
a un plan
1
2
minn kx x0 k
xR 2
(2.26)
Ax b = 0.
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005
22
(2.27)
avec A une m n matrice de rang m et m < n. Il sagit donc dun syst`eme sous-determine.
La Pseudo-inverse de Moore et Pensose est par definition la matrice A 0 telle que le vecteur :
x
= A0 b
est la solution de norme minimale du syst`eme (2.27). Le probl`eme doptimisation `a resoudre
est donc :
1
2
minn kxk
xR 2
(2.28)
Ax b = 0.
Ngalla Djitt
e - UFR-SAT - Universit
e Gaston Berger de Saint-Louis 2004 - 2005