. Ce dernier travaille actuellement AT&T Bells Laboratory. Cette technique ne connat l essor et le succs que depuis quelques annes. Lide principale de cette technique rside en la sparation des classes par un hyperplan qui maximise la marge entre elles. Nous allons expliquer cette mthode. Pour cela nous allons nous placer dans le cas o les donnes sont linairement sparables. Nous traiterons en dtails le cas linaire et nous verrons assez succinctement le cas non linaire. Avant de rentrer dans le vif du sujet, nous allons dabord prsenter quelques notions ncessaires la comprhension de ce sujet. Avant de rentrer dans les dtails, nous allons poser quelques notions qui permettront de mieux comprendre la suite.
I-Quelques notions
1- quation dun hyperplan ou de frontire de dcision : F ( x ) ! w t .x b 2- Distance dun point x par rapport lhyperplan :
F (X ) w O || w || est la norme euclidienne. D (x) !
3- Hyperplan optimal : Cest un hyperplan qui classifie correctement les donnes lorsque cela est possible et qui se trouve le plus loin possible de tous les exemples. Supposons que nous avons le cas illustr par la figure ci-dessous. Nous pouvons trouver plusieurs hyperplans. Cependant, parmi tous ces hyperplans seuls quelques un sont des hyperplans optimaux. Les hyperplans qui sont en pointills sont valides. En effet, ils sparent bien les exemples. Mais ils ne sont pas optimaux. Ils sont trop proches de lespace de reprsentation. Dans notre exemple, lhyperplan en trait plein est optimal. Il se trouve en effet le plus loin possible de tous les exemples. On peut mme dire quil se trouve au milieu des espaces de reprsentation.
4- Marge
Cette notion de marge est trs importante pour bien comprendre la suite. La marge est la distance le plus proche entre les exemples dapprentissage et la surface de dcision. Les exemples d'apprentissage sont supposs tre tous correctement classifis par cette surface de dcision).
Marge
Aprs avoir prsent les notions, nous allons maintenant entrer dans le vif du sujet. Nous allons, tout dabord, voir en dtail le cas sparable linaire.
wx+ b=1
Marges
wx+b=0
Marges
wx+ b=-1
+ + + + + + + + + + + + +
Trouver lhyperplan optimal qui spare les donnes consiste rsoudre le problme qui porte sur les paramtres w et b. Minimiser
1 w 2
2
y i ( w t .x b) u 1 yi ( w t .x b ) u 0
Nous pouvons dmontrer ce rsultat : Nous savons que pour avoir zro erreurs nous devons avoir :
d!
1 ( w t .x b ) . w yi ( 1 ( wt .x b)) u d . w 1 1 ( w t .x b)) u w w
d! En posant
1 w
nous obtenons
yi (
Soit encore :
y i ( wt .x b ) u 1 .
Nous allons maintenant compliquer les choses pour les rendre plus simples.
III-Reparamtrisation astucieuse
On va utiliser le fait que la plupart des exemples ne sont pas des points de support, et que dans le cas de la fonction de dcision linaire la solution a forcment la forme d'une combinaison linaire des exemples.
w ! E i .xi
i
O les
i sont
des scalaires et
i>
( x ) ! E i .( xi x)
i
On utilise ensuite une fonction que lon appelle Lagrangien qui se prsente sous la forme suivante :
l l 1 2 t Lp ! w E i yi ( w xi b) E i 2 i !1 i !1
Cette fonction incorpore des informations sur la fonction objectifs et sur les contraintes et dont la stationnarit peut tre utilise pour dtecter les solutions. Le problme est ramen minimiser Lp par rapport w et b sous les contraintes que la driv par rapport aux i soient nulles et en ayant i > 0. Daprs la thorie de loptimisation, un problme doptimisation possde une forme duale dans le cas o la fonctions objectif et les contraintes sont strictement convexes. Dans ce cas, la rsolution de lexpression duale du problme est quivalente la solution du problme original. Dans notre cas, en passant la formulation duale, le problme revient, non plus minimiser, mais maximiser Lp sous les contraintes
xLp xLp !0 , !0 xw xb
et
i>
0.
w ! E i yi xi
i
et
E y
i i
! 0.
4
Lp ! E i
i
1 E iE j yi y j xi .x j 2 i, j
Pourquoi cest astucieux ? On peut montrer, daprs Karush-Khun-Tucker, que seule les points qui sont sur lhyperplan frontire cest dire ( w .x b ) ! s 1 jouent un rle. De plus, la plupart des multiplicateur Langrangien i sont nuls, et les xi associs des i non nuls sont appels vecteur support par Vapnik. Et ce sont eux qui dterminent lhyperplan optimal. Cest un tour de force qui est remarquable. En effet, parmi un amas dexemples, seuls quelques uns seront utiles pour dterminer lhyperplan optimal.
t
Vecteur Support
Marges
Marges
+ +
+ +
+ +
+ +
+ +
Donc, pour trouver lhyperplan optimal, il faut dabord chercher les multiplicateurs Lagrangien. Ds que nous avons les solutions i . Nous pouvons trouver la solution w=y ixi. Puis w0 est obtenu en utilisant nimporte quel vecteur support dans lquation. Dans ce cas, trouver lhyperplan optimal consiste rsoudre le problme qui ne se porte, maintenant, que sur les i .
1 l L( ) = E i E iE j y i y j ( x i x j ) 2 i !1 i !1
l l
E i yi ! 0
5
i!1
Ds que nous avons la solution i, nous pouvons trouver la solution w= obtenu en utilisant nimporte vecteur support dans lquation.
i yi xi
. Puis b est
b !
O x-1 est un point support de la classe ngatif, et x1 celui de la classe positif Cette reparamtrisation permet dobtenir des proprits intressante qui sont indiqu ci dessous : Une solution unique ( i.e <w,b>) Dpend uniquement du calcul interne (xi,xj). Si i > 0 le point dexemple est un vecteur de support. Le calcul de lhyperplan requiert un produit interne x i.xj. Cela va avoir une rpercussion trs importante. Cest ce que nous allons tudier maintenant en examinant le cas non linaire sparable.
1 ( w . x 1 w . x1 ) 2
Pour cela, Vapnik introduit deux trucs : 1er truc : On projette les x sur un espace plus grande dimension avec une fonction vectorielle N. Cette espace peut tre infinie. F(x) = w . N(x) F(x) = i N(xi) N(x)
Espace dentre
N
Espace de reprsentation
x1
x2
x1 x2 2x 1 2x2 2x1 x2 1
x2
x2
x1 x1 Maintenant, nous pouvons sparer cela en appliquant la mthode vue dans le paragraphe II. 2me truc : Cest de choisir la fonction N tel que le produit scalaire des N ne soit pas coteux raliser. De plus, il nest pas ncessaire de connatre explicitement N, puisque seule K intervient dans les calculs. On crit donc : F(x) = i K(xi,x) i o K(u,v) doit tre une fonction symtrique (c'est un noyau) qui satisfait certaines proprits mathmatiques (pour reprsenter un produit scalaire ). Les fonctions habituellement utilis sont : Des polynmes : K(u,v) = (u.v +1)d Des gaussiennes : K(u,v) =
x y / 2W
Nous allons rsoudre, pour terminer notre prsentation des SVM ,le problme du ou exclusif qui est un cas non linaire. Exemple de rsolution : Table 1. Le problme du XOR
Vecteur dentr, x (-1,-1) (-1,+1) (+1,-1) (+1,+1)
Rponse dsir, d
-1 +1 +1 -1
K ( x, x i ) ! (1 x T x i ) 2
nous obtenons 9 1 ( x, x i ) ! 1 1 1 1 1 9 1 1 1 9 1 1 1 9
o x=[x1,x2]T , xi=[xi1,xi2]T.
a
i !1
= a1+a2+a3+a4-
1 (9a12-2a1a2-2a1a3+2a1a4+9a22+2a2a3-2a2a4+9a32-2a3a4+9a42) 2
Optimisation de Q(a) : 9 a 1 a 2 a 3 a 4 ! 1 a1 9 a 2 a 3 a 4 ! 1 a1 a 2 9 a 3 a 4 ! 1 1 a 2 a 3 9a 4 ! 1 a Aprs rsolution nous obtenons: a1=a2=a3=a4=1/8, et la valeur optimal de Q(a) est . A cause du produit interne du noyau K(x,xi) et en prenant ( x, x i ) ! N ( x)N ( x i ) nous avons N ( x i ) ! [1, x i1 , 2 x i1 x i 2 , x i 2 , 2 x i1 , 2 x i 2 ]T Nous obtenons alors : w0 ! a i d i N ( xi )
i !1 N 2 2
1 = [ N ( x1 ) N ( x 2 ) N ( x 3 ) N ( x 4 )] 8 1 1 1 1 1 1 1 1 2 2 2 1 = 8 1 1 1 1 2 2 2 2 2 2 2 2 2
1 N N ai a j d i d j ( xi , x j ) 2 i !1 j !1
0 0 1 / 2 = 0 0 0 (Remarque : le premier lment de w0 indique que b vaut zro.) Lhyperplan optimal est dfinie par w0 N ( x) ! 0 , ce qui correspond ,
T
1 2 x1 2 x1 x 2 1 0,0, ,0,0,0 2 !0 2 x2 2 x1 2x2 qui est rduit : -x1x2=0 Cest lhyperplan optimal.
Bibliographie slective : C .J.C.Burges A tutorial on support vector machines for pattern recognition.
10