http://emotion.inrialpes.fr/aycard
e-Motion Group 2007 Olivier.aycard@imag.fr
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
Introduction
On suppose maintenant quon ne connat pas les classes auxquelles appartiennent les donnes (contrairement aux mthodes de catgorisation) :
Mthode de classification Apprentissage non supervis
On veut rpartir les donnes en K classes disjointes Il faut une reprsentation pour chaque classe Il faut trouver une mthode pour classifier les donnes
Introduction
On veut rpartir les tudiants en 2 classes en fonction de leur note
notes des tudiants
9 8
6 nombre d'tudiants
Introduction
On veut rpartir les tudiants en 2 classes en fonction de leur note
notes des tudiants
9 8
6 nombre d'tudiants
Les tudiants dont la note est infrieure ou gale 7 (ou 8, 9, 10) et les tudiants dont la note est suprieure 7 (ou 8, 9, 10)
e-Motion Group 2007 Olivier.aycard@imag.fr
Introduction
On veut rpartir les tudiants en 2 classes en fonction de leur note
notes des tudiants
9 8
6 nombre d'tudiants
5 classe 1 classe 2 4
Les tudiants dont la note est comprise entre 3 et 7 et les tudiants dont la note est comprise entre 11 et 16
e-Motion Group 2007 Olivier.aycard@imag.fr
Introduction
On veut rpartir les tudiants en 2 classes en fonction de leur note
notes des tudiants
9 8
6 nombre d'tudiants
Introduction
On veut rpartir les tudiants en 2 classes en fonction de leur note
notes des tudiants
9 8
6 nombre d'tudiants
La classe dtudiants dont la moyenne est de 5,40 et la classe dtudiants dont la moyenne est de 13.75 Un tudiant avec une note de 9 fait partie de la 1 re classe
e-Motion Group 2007 Olivier.aycard@imag.fr
Introduction
On veut maintenant rpartir les tudiants en 3 classes en fonction de leur note
classes d'tudiants
9
9
classes d'tudiants
9
6 nombre d'tudiants
classes d'tudiants
8
8
7
7
6
6
nombre d'tudiants
nombre d'tudiants
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
10
p =1
p i
p j
11
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
12
Principe du partitionnement
Rpartir les N points en K classes disjointes Chaque point est affect la classe la plus proche Chaque classe est reprsente par un point i (appel le centre de gravit de la classe) avec 1<= i <= K Il faut trouver les K points reprsentants les classes Problme de minimisation
D = distance( x j , i )
i =1 jCi K
13
Exemple de partitionnement
Reprenons notre exemple de partitionnement des tudiants en fonction de leur note On choisit deux classes : 1= 3 et 1= 14 On rpartit les tudiants en fonction de la distance entre leur note et chaque classe
notes des tudiants
9 8
6 nombre d'tudiants
5 classe 1 classe 2 4
14
Exemple de partitionnement
1= 3 et 2= 14
notes des tudiants
9 8
6 nombre d'tudiants
5 classe 1 classe 2 4
D(3.14 ) = 4 3 3 + 2 4 3 + 6 5 3 + 3 6 3 + 8 7 3 + 2 11 14 + 4 12 14 + 3 13 14 + 2 14 14 + 6 15 14 + 3 16 14
D( 3.14 ) = 2 + 12 + 9 + 32 + 6 + 8 + 3 + 6 + 6 = 84
15
Exemple de partitionnement
1= 4 et 2= 12
notes des tudiants
6 nombre d'tudiants
5 classe 1 classe 2 4
D( 4.12) = 4 3 4 + 2 4 4 + 6 5 4 + 3 6 4 + 8 7 4 + 2 11 12 + 4 12 12 + 3 13 12 + 2 14 12 + 6 15 12 + 3 16 12
D( 4.12) = 4 + 6 + 6 + 24 + 2 + 3 + 4 + 18 + 12 = 79
16
Exemple de partitionnement
Pour trouver le meilleur partitionnement, il faut calculer D(i,j) pour tous les couples (i, j) avec 0 <= i, j <= 20 Il y a 212 couples possibles Si on voulait partitionner les tudiants en 5 classes, il faudrait tester 215 (4x106) quintuplets possibles Dans le cas gnral, une approche exhaustive est proscrire En plus, on se restreint des valeurs entires pour reprsenter les classes On utilise lalgorithme des k-moyennes
17
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
18
x
jCi
19
6 nombre d'tudiants
5 classe 1 classe 2 4
( 4 3 + 2 4 + 6 5 + 3 6 + 8 7) =
23
5.39
1 275 2 = ( 2 11 + 4 12 + 3 13 + 2 14 + 6 15 + 3 16 ) = 13.75 20 20
D 58.89
20
6 nombre d'tudiants
5 classe 1 classe 2 4
D 58.89
2 =
21
6 nombre d'tudiants
D 47.82
22
6 nombre d'tudiants
2 6.11
e-Motion Group 2007 Olivier.aycard@imag.fr
D 46.28
23
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
24
Exemple de lalgorithme des k-moyennes pour 3 classes (autres valeurs initiales pour les centres de gravit)
Initialisation : 1= 0, 2= 6 et 3= 18 Valeurs finales des centres de gravit
1 4.16
2 6.72
3 13.75
D 43.86
6 nombre d'tudiants
25
Exemple de lalgorithme des k-moyennes pour 3 classes (autres valeurs initiales pour les centres de gravit) : encore !!! Initialisation : 1= 0, 2= 10 et 3= 20 Valeurs finales des centres de gravit
1 5.39
2 12.11
3 15.09
D 40.18
6 nombre d'tudiants
26
Rpartition des tudiants en 3 classes (rsum) Selon les valeurs initiales des centres de gravit, on obtient :
1 5.39 2 12.11 3 15.09 1 4.16 2 6.72
1 = 3.33 2 6.11
9
3 13.75 3 13.75
classes d'tudiants
6 nombre d'tudiants
On a des problmes de minimums locaux : 2 minimums locaux et 1 minimum global En pratique, les 3 valeurs obtenues sont utilisables
e-Motion Group 2007 Olivier.aycard@imag.fr
27
2.
Aucun de ces 2 algorithmes nassure de trouver le minimum global En pratique, lalgorithme des formes fortes donne de bons rsultats
28
On excute lalgorithme des k-moyennes 5 fois avec des centres de gravit choisis alatoirement On obtient :
classes d'tudiants
9
6 nombre d'tudiants
2 fois
9 8 7
2 fois
notes des tudiants
1 fois
6 nombre d'tudiants
29
Exemple de lalgorithme des formes fortes(2/2) On choisit 3 centres de gravits parmi les 4 formes fortes, on a 4 possibilits :
1. 1 = 3.66, 2 = 6.73 et 3 = 12.11 2. 1 = 3.66, 2 = 6.73 et 3 = 15.09 3. 1 = 3.66, 2 = 12.11 et 3 = 15.09 4. 1 = 6.73, 2 = 12.11 et 3 = 15.09
On obtient : 4.16
1. 2. 3. 4.
1
2 6.72
3 13.75 3 13.75
1 4.16 2 6.72
30
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
31
Plus on a de classes, plus la variance est faible : il suffit donc davoir beaucoup de classes !!!
32
N distance( , g )
i =1 i i
1 avec g = N
x
j =1
K
Variance intra classe Variance inter classe
1 178.9 0
2 58.89 178.9
3 40.17 178.8
4 25.18 179
5 17.43 178.9
6 13.44 178.8
Il faut maximiser la distance entre les classes et minimiser la distance entre les donnes dune mme classe Dans notre exemple, on pourra choisir K=4
33
Plan du cours
Introduction Distance ou mtrique Principe du partitionnement et exemple Lalgorithme k-moyennes Problme de minimums locaux et lalgorithme des formes fortes Choix du nombre de classes Conclusion
34
Conclusion (1)
On cherche rpartir un ensemble de N donnes en K classes Les donnes ne sont pas tiquetes
Apprentissage non supervis Mthode de classification
Lalgorithme des k-moyennes rpartit les N donnes en K classes en minimisant la distance entre les donnes de chaque classe et le centre de gravit de la classe correspondante Lalgorithme des K-moyennes est un algorithme itratif qui part dune valeur initiale pour chaque centre de gravit et lamliore itrativement
Il trouve un minimum local dans lensemble des centres de gravit
e-Motion Group 2007 Olivier.aycard@imag.fr
35
Conclusion (2)
Lalgorithme des formes fortes permet de trouver de bonnes valeurs pour les valeurs initiales des centres de gravit Pour trouver le nombre de classes K pour rpartir un ensemble de N donnes, on cherche maximiser la distance entre les classes (i.e. linertie inter classe) et minimiser la distance entre les donnes dune mme classe (i.e. linertie intra classe) Il nous faut une distance/mesure pour rpartir les donnes Il existe dautres mthodes de classification : modles de mlanges (gnralisation de lalgorithme k-moyennes)
36