App Rent Is Sage Supervise

Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.
fr
Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
Tableau de donnes
Variables, caractres, attributs, Descripteurs, champs, etc.
Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed
Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow
Individus, observations, objets, enregistrements, etc.
Statut des variables

Success W ages Job Y 0 U n e m p lo y e d N 2 0 0 0 S k ille d W o rk e r N 1 4 0 0 W o rk e r N 1 5 7 3 R e tire d Y 2 7 7 6 S k ille d W o rk e r N 2 4 3 9 R e tire d N 8 6 2 O ffic e e m p lo y e e Y 1 4 0 0 S a le s m a n N 1 7 0 0 S k ille d W o rk e r Y 7 8 5 E m p lo y e e Y 1 2 7 4 W o rk e r N 9 6 0 E m p lo y e e N 1 6 5 6 W o rk e r N 0 U n e m p lo y e d R e fu n d in g S lo w S lo w S lo w S lo w S lo w Fast S lo w S lo w S lo w Fast S lo w Fast Fast S lo w
Variable prdire Attribut classe Variable endogne Ncessairement discrte nominale (qualitative)
Variables prdictives Descripteurs Variables exognes De type quelconque (nominale, ordinale, continue)
Principes de lapprentissage supervis

Population
Y variable prdire (endogne), qualitative X variables exognes (quelconques)

Une srie de variables X=(x1||xp)
Objet de l tude
On veut construire une fonction de classement telle que
Y = f ( X , )
Utiliser un chantillon a (extraite de la population) pour choisir la fonction f et ses paramtres telle que l on minimise l erreur thorique
Objectif de l apprentissage
ET =
1 [Y , f ( X , )] card ()
1 si Y f ( X , ) o [.] = 0 si Y = f ( X , )
Problmes : il faut choisir une famille de fonction il faut estimer les paramtres on utilise un chantillon pour optimiser sur la population
Apprentissage bayesien
(cas particulier du problme 2 classes Positifs vs. Ngatifs)
Apprentissage en 2 tapes partir des donnes : estimer la probabilit daffectation P(Y / X) prdire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques : P(Y = + / X) est selon le cas appel score ou apptence : cest la propension tre un positif Cette mthode daffectation minimise lerreur de prdiction -- cest un cas particulier du cot de mauvaise affectation
Apprentissage bayesien
(gnralisation K classes)
Apprentissage en 2 tapes partir des donnes : estimer la probabilit daffectation P(Y = yk / X ) prdire
y k * = arg max P ( Y = y k / X )
k
Remarque : Lorsque les X sont discrets, nous pouvons en dduire un modle logique daffectation.
Si X1 = ? et X2 = ? et X3 = ? Alors Y = ?
prmisse
conclusion
6
Apprentissage bayesien -- Exemple Y

Maladie Prsent Prsent Absent Absent Prsent Absent Absent Prsent Absent Prsent Poids 45 57 59 61 65 68 70 72 78 80 Taille Trapu Elanc Elanc Trapu Elanc Elanc Trapu Trapu Trapu Elanc
X
Mari Non Non Non Oui Non Non Oui Non Oui Oui Etud.Sup Oui Oui Non Oui Oui Non Non Oui Non Non
SI taille = ? ALORS Maladie = ? SI taille = ? ET etud.sup = ? ALORS Maladie = ?
Avantages et inconvnient du modle bayesien complet

Optimale, elle minimise lerreur thorique
Pas de solution directe pour les descripteurs continus

(discrtisation ou hypothse de distribution)
Pas de slection et dvaluation des descripteurs

(individuellement ou des groupes de variables donc pas de slection)
Ds que le nombre de descripteurs augmente
Problme de calculabilit Problme de fragmentation des donnes
Nombre doprations norme, ex. 10 descr. Binaires => 2^10 rgles
Plein de cases avec des 0, estimations peu fiables
Cette approche nest pas utilisable dans la pratique !

valuation de lapprentissage
Le modle exprime une connaissance Explication : comprendre la causalit pour mieux lexploiter
Comprhensibilit
Validation : lexpert peut valuer la pertinence de lexpertise Amlioration : lexpert peut intervenir pour ajuster les paramtres calculs (ex. les bornes de discrtisation)
En apprentissage
pouvoir tester plusieurs pistes (ajout de variables,
Rapidit
test de combinaison de variables, modifications de paramtres, etc.) En classement, affecter une tiquette un nouvel individu Facilit de mise jour du modle (cf. la notion dincrmentalit)
Prcision
valuer la prcision (fiabilit) du modle lors de son utilisation future
valuation de lapprentissage Matrice de confusion

Principe : confronter la vraie valeur avec la prdiction
Prdite + b d b+d Total a+b c+d n
Observe
+ Total
a c a+c
Quelques indicateurs : Vrais positifs VP = a Faux positifs FP = c Taux derreur = (c+b)/n Sensibilit = Rappel = Taux de VP = a/(a+b) Prcision = a/(a+c) Taux de FP = c/(c+d) Spcificit = d/(c+d) = 1 Taux de FP
10
valuation Les cots de mauvaise affectation

Comparaison de deux mthodes dapprentissage
Prdite +
Observe
Prdite
10 30 40 Total 50 50 100
Observe
+ + Total 20 0 20
30 50 80
Total 50 50 100
+ Total
40 20 60
Calculer les indicateurs synthtiques et comparer
Une information complmentaire La matrice de cots de mauvais classement

Prdite +
Observe
5 0
+ -
0 1
Cot moyen de mauvaise affectation (dont le taux derreur est un cas particulier)
11
valuation Le principe apprentissage & test

Problme : un fichier ne peut pas tre juge et partie
Dans ce cas, les indicateurs calculs sont dit de resubstitution On sait quils sont biaiss -- trop optimistes
Success W ages Job Y 0 Unemployed N 2000 Skilled W orker N 1400 W orker N 1573 Retired Y 2776 Skilled W orker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled W orker Y 785 Employee Y 1274 W orker N 960 Employee N 1656 W orker N 0 Unemployed
Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow
Subdivision alatoire
chantillon dapprentissage
Utilis pour la construction du modle 70%
chantillon test
Utilis pour lvaluation du modle 30% Rappel, prcision, taux derreur
(exercice : fichier LOAN Success vs. Housing & Refunding) Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC
12
Bibliographique : comprhension des mthodes supervises
Analyse discriminante Application au risque et au scoring financier , M. Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repres thoriques, tourn vers les applications
The elements of statistical learning - Data Mining, Inference and Prediction , T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Trs technique, encyclopdique, indispensable pour la recherche, lire plusieurs fois
13

App Rent Is Sage Supervise

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

App Rent Is Sage Supervise

Diunggah oleh

Hak Cipta:

Format Tersedia

Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Variables, caractres, attributs, Descripteurs, champs, etc.

Individus, observations, objets, enregistrements, etc.

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Statut des variables

Principes de lapprentissage supervis

Y variable prdire (endogne), qualitative X variables exognes (quelconques)

On veut construire une fonction de classement telle que

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Apprentissage bayesien -- Exemple Y

SI taille = ? ALORS Maladie = ? SI taille = ? ET etud.sup = ? ALORS Maladie = ?

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Avantages et inconvnient du modle bayesien complet

Pas de solution directe pour les descripteurs continus

Pas de slection et dvaluation des descripteurs

Ds que le nombre de descripteurs augmente

Problme de calculabilit Problme de fragmentation des donnes

Nombre doprations norme, ex. 10 descr. Binaires => 2^10 rgles

Plein de cases avec des 0, estimations peu fiables

Cette approche nest pas utilisable dans la pratique !

pouvoir tester plusieurs pistes (ajout de variables,

valuer la prcision (fiabilit) du modle lors de son utilisation future

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

valuation de lapprentissage Matrice de confusion

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

valuation Les cots de mauvaise affectation

Calculer les indicateurs synthtiques et comparer

Une information complmentaire La matrice de cots de mauvais classement

valuation Le principe apprentissage & test

Bibliographique : comprhension des mthodes supervises

Equipe de recherche en Ingnierie des Connaissances Laboratoire ERIC

Anda mungkin juga menyukai