fr
Tableau de donnes
Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed
Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow
Variable prdire Attribut classe Variable endogne Ncessairement discrte nominale (qualitative)
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
Variables prdictives Descripteurs Variables exognes De type quelconque (nominale, ordinale, continue)
Objet de l tude
Y = f ( X , )
Utiliser un chantillon a (extraite de la population) pour choisir la fonction f et ses paramtres telle que l on minimise l erreur thorique
Objectif de l apprentissage
ET =
1 [Y , f ( X , )] card ()
1 si Y f ( X , ) o [.] = 0 si Y = f ( X , )
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
Problmes : il faut choisir une famille de fonction il faut estimer les paramtres on utilise un chantillon pour optimiser sur la population
Apprentissage bayesien
(cas particulier du problme 2 classes Positifs vs. Ngatifs)
Apprentissage en 2 tapes partir des donnes : estimer la probabilit daffectation P(Y / X) prdire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques : P(Y = + / X) est selon le cas appel score ou apptence : cest la propension tre un positif Cette mthode daffectation minimise lerreur de prdiction -- cest un cas particulier du cot de mauvaise affectation
Apprentissage bayesien
(gnralisation K classes)
Apprentissage en 2 tapes partir des donnes : estimer la probabilit daffectation P(Y = yk / X ) prdire
y k * = arg max P ( Y = y k / X )
k
Remarque : Lorsque les X sont discrets, nous pouvons en dduire un modle logique daffectation.
Si X1 = ? et X2 = ? et X3 = ? Alors Y = ?
prmisse
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
conclusion
6
X
Mari Non Non Non Oui Non Non Oui Non Oui Oui Etud.Sup Oui Oui Non Oui Oui Non Non Oui Non Non
valuation de lapprentissage
Le modle exprime une connaissance Explication : comprendre la causalit pour mieux lexploiter
Comprhensibilit
Validation : lexpert peut valuer la pertinence de lexpertise Amlioration : lexpert peut intervenir pour ajuster les paramtres calculs (ex. les bornes de discrtisation)
En apprentissage
Rapidit
test de combinaison de variables, modifications de paramtres, etc.) En classement, affecter une tiquette un nouvel individu Facilit de mise jour du modle (cf. la notion dincrmentalit)
Prcision
Observe
+ Total
a c a+c
Quelques indicateurs : Vrais positifs VP = a Faux positifs FP = c Taux derreur = (c+b)/n Sensibilit = Rappel = Taux de VP = a/(a+b) Prcision = a/(a+c) Taux de FP = c/(c+d) Spcificit = d/(c+d) = 1 Taux de FP
10
Prdite
10 30 40 Total 50 50 100
Observe
+ + Total 20 0 20
30 50 80
Total 50 50 100
+ Total
40 20 60
5 0
+ -
0 1
Cot moyen de mauvaise affectation (dont le taux derreur est un cas particulier)
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
11
Success W ages Job Y 0 Unemployed N 2000 Skilled W orker N 1400 W orker N 1573 Retired Y 2776 Skilled W orker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled W orker Y 785 Employee Y 1274 W orker N 960 Employee N 1656 W orker N 0 Unemployed
Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow
Subdivision alatoire
chantillon dapprentissage
Utilis pour la construction du modle 70%
chantillon test
Utilis pour lvaluation du modle 30% Rappel, prcision, taux derreur
(exercice : fichier LOAN Success vs. Housing & Refunding) Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
12
Analyse discriminante Application au risque et au scoring financier , M. Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repres thoriques, tourn vers les applications
The elements of statistical learning - Data Mining, Inference and Prediction , T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Trs technique, encyclopdique, indispensable pour la recherche, lire plusieurs fois
13