Cette introduction au MDM et la DQM est ralise grce aux changes permis par
les groupes de travail d'ExQi (Excellence Qualit Information), mes remerciements
vont aux membres du GT Big Data (Delphine CLMENT, Sebastiao CORREIA,
Soumaya BEN HASSINE, Herv HUSSON et Khalil EL IDRISSI) et du GT
Valorisation, tout particulirement Xavier HENDERSON et Isabelle SIPMA pour la
richesse de leurs dbats sur les notions dinformation et de valorisation des donnes
en lien avec lusage. Merci galement Nathalie BARTHLMY pour ses prcisions
relatives GRDF et la bienveillance de ses commentaires.
I- Introduction .................................................................................................................................... 3
Donne ............................................................................................................................................... 3
Information ......................................................................................................................................... 3
Document ........................................................................................................................................... 3
1.1. Une architecture centre MDM : lentrept de donnes (Data Warehouse) .............. 4
1- Convergences ......................................................................................................................... 7
En conclusion ...................................................................................................................................... 11
I - Introduction
Donne : description lmentaire dune ralit, dun objet, d'une personne ou dun
vnement, voire dun lieu. Cette ralit est inscrite dans les systmes d'information
en tant qu'enregistrement ou record (sous forme de n-uplet constitu dune liste
dattributs ou sous forme dobjets).
Document : Pour faire le lien avec le sujet seul le document numrique, comme
construction numrique sur laquelle sexercent des traitements calculatoires2 , sera
considr, en tant que jeu de donnes.
Cest une technologie de gestion des donnes de rfrence, aussi appeles donnes
matres, qui vise obtenir une information unique et partage dans lentreprise.
Chez GRDF par exemple les donnes dorganisation interne du rseau sont
galement considres comme donnes de rfrence ; les donnes de
nomenclature (liste des communes, units de mesure, etc..) sont aussi traites
comme donnes de rfrence mais de moindre enjeu que les autres master data.
Ils sont grs par les DSI ou par des services ddis la gestion des donnes.
Si aujourd'hui les Data Warehouses sont moins valoriss quau cours des 20
dernires annes, en particulier cause des exigences de traitement en temps rel
et de contextualisation des donnes multisources3, ils sont encore trs prsents dans
les grandes entreprises, il y a donc de nombreux sujets relatifs leur volution et la
manire dont il est possible de les adapter au traitement des grandes masses de
donnes (Clusterisation et partitionnement, curation de donnes dans les Data Lake,
etc.).
Un SOR doit pouvoir grer les difficults lies lcriture des transactions et aux
ventuels conflits daccs aux donnes en lecture et en criture : par exemple une
mme donne client peut tre crite au mme moment par lapplication CRM et
lapplication ddie au marketing. Il faut pouvoir identifier le type de donnes
concernes, le rfrencement des systmes clients (ERP, DW, CRM, PLM, etc.),
identifier les connecteurs possibles pour l'intgration (flux XML, API, Web services,
etc.).
Avant mme de penser lingnierie du systme, il faut idalement travailler avec les
mtiers pour reconstituer et surtout cartographier le cycle de vie des donnes, savoir
comment elles sont produites et quoi elles servent ou serviront. Le cycle de vie se
dfinit gnralement autour de fonctions telles que :
L'usage courant des donnes peut tre dtermin par analyse statistique et en
atelier avec les mtiers, ce qui permet dvaluer leur importance un instant t, leur
impact et donc leur valeur.
L'usage futur des donnes est plus dlicat apprhender. Cette possibilit
apparat avec la capacit traiter aujourdhui de grandes masses de donnes : on
est capable de collecter et stocker des big data, mais il est difficile dtablir leur
valeur, car on nenvisage pas au moment de la collecte quels pourront tre les
usages futurs de ces donnes, cest un des dfis actuel de la gouvernance des
donnes. Une solution possible consiste ajouter des mtadonnes de production et
dutilisation sur les donnes (data lineage) afin de faciliter leur accessibilit et leur
exploitabilit pour des usages en devenir (pour un projet de norme internationale voir
SDMX).
Pour aider dfinir les usages et les contraintes techniques, sont dtermines dans
lentreprise des fonctions data :
les chief data officers qui, entre autre, dterminent et garantissent les
principes de gouvernance sur les donnes. Les CDO interviennent au niveau
excutif et non au niveau de la gestion des donnes.6
les data owners, cest dire des propritaires de la donnes, qui ont la priorit
sur les donnes et sont chargs dautoriser ou restreindre laccs aux
donnes, ils sont aussi responsables de leur exactitude, de leur intgrit et de
leur fracheur,
les data stewarts qui sont des intendants de la donne, souvent des
gestionnaires de donnes,
Les rles inclus dans ces diffrentes fonctions dpendent en fait du degr de
maturit de lentreprise en matire de gouvernance des donnes.
Sur les projets, on trouvera aussi des business analysts, qui analysent les
processus mtiers pour dterminer les processus de cration de la donne en
collaboration avec les architectes de donnes.
1- Convergences
La gestion des donnes de rfrence peut sinscrire dans des projets plus tendus
damlioration de la qualit des donnes (DQM). La dfinition de niveaux de qualit
de donnes est considre comme un vecteur de la cration de valeur visant
amliorer les performances globales de lentreprise. Ce type de projet ne concerne
plus uniquement les master data mais leur articulation avec les donnes externes,
les dark data, lopen data ainsi que les donnes rputes non-structures . Les
projets visent alors minimiser limpact du garbage in, garbage out en proposant
des politiques damlioration continue de la qualit des donnes (DQM) afin de
faciliter la maintenance et lanalyse de ces donnes. Ils ont pour objectif de minimiser
les risques lis la perte des donnes, les cots oprationnels et dviter les
retraitements pralables lanalyse de donnes dont on ne peut faire lconomie sur
des donnes disparates et de qualit ingale, retraitements qui occupent aujourdhui
entre 50 et 80% du temps des data scientists.
Les aspects thoriques de la qualit de donnes et les couches logiques qui entrent
en jeu lors de la dfinition des modles de donnes assemblent des notions
similaires celles utilises en gestion de linformation. Pour arriver faire merger
une qualit de donnes adapte l'usage, on peut commencer par travailler un
concept quon rencontre aussi en modlisation et en gestion des bases de donnes :
la concordance au rel. On cherchera par exemple analyser quel point les objets
du SI reprsentent les objets du monde rel en travaillant les dimensions de
compltude et dexactitude. Les approches par les modles7 (MDA, Model Driven
Architectures) proposent des paradigmes de rsolution de la qualit de donnes
intgrant les besoins en robustesse du SI et les besoins en agilit des mtiers.
Ex : il est inutile de forcer la compltude dun jeu de donnes qui nest employ que
pour un usage restreint. Ainsi il sera coteux mais pas ncessairement utile de
conserver lancienne adresse dun tudiant qui dmnage dans une base de
donnes administrative, par contre conserver lancienne adresse dun client dans un
CRM peut aider d-doublonner en cas dhomonymie. On peut donc trouver une
valeur dusage conserver cet historique.
La qualit des donnes est dfinie par un ensemble de fonctions valuables sur
les donnes appeles mtriques de qualit (ou indicateurs de qualit), qui
permettent de mesurer ladquation entre la qualit effective des donnes et la
qualit attendue de celles-ci. 10
Pour dterminer ces indicateurs il faut donc considrer au moins trois lments :
Cette dfinition est mise en uvre dans les approches probabilistes de Berthier et
Teboul12, qui questionnent la valeur et la vracit des donnes : quelle est la
probabilit de la vracit dune donne, connaissant son historique, son metteur et
sa rputation. (A mettre en relation avec les interrogations rcurrentes en DQM sur la
crdibilit des donnes 13).
Non financier :
valeur intrinsque : qualit et facilit dutilisation de la donne versus quelle
est la probabilit que dautres lextrieur de lorganisation possdent cette
mme donne ?
valeur mtier de linformation : la donne est elle utilisable par un mtier ou un
processus mtier ? Avec quelle rapidit lentreprise peut elle obtenir des
donnes fraiches pour amliorer la performance de ce processus ?
valeur de performance de linformation : combien une unit dinformation
contribue faire en sorte que lentreprise optimise ses indicateurs de
performance ?
Financier :
valeur du cot de linformation : quel serait le cot de remplacement des
donnes si lentreprise les perdait et devait les racheter.
valeur de march : quel prix un partenaire daffaire serait prt acheter les
donnes
etc.
Pourquoi insister sur la dfinition de la valeur : cest cette valeur (ces traitements de
la valeur) affecte la donne qui va permettre dtablir les seuils des indicateurs
qualit de donnes. On dfinit les rgles permettant dtablir ces indicateurs en
dterminant les dimensions qualit prendre en compte pour les calculer. Les
dimensions sont donc un support logique, une aide conceptuelle pour dfinir la
qualit et interprter les rsultats de lanalyse15.
Cohrence : des donnes sont cohrentes entre elles si elles satisfont les
rgles syntaxiques et smantiques qui leur sont associes : par exemple on
peut mesure la cohrence entre un ge et une date de naissance18.
En conclusion :
Les projets MDM peuvent tre des points dentre pour les projets DQM, car ces
deux types dengagement ncessitent la fois des savoir-faire techniques et
technologiques et la mise en uvre de collaborations fortes dans lentreprise. Aussi,
la russite des projets data, ncessaires la transformation digitale des entreprises,
est trs dpendante des rflexions menes autour du dveloppement de
lintelligence collective, de la gestion du changement et de la capacit des
organisations rendre oprantes des collaborations transversales en favorisant ces
synergies digitales et collaboratives.
En la matire, des projets GED et DQM qui seraient dfinis autour de processus
mtiers communs auraient beaucoup partager.
Notes et rfrences :
1
Pour une approche par les systmes complexes voir notamment les travaux de lInstitut Praxeme,
galement : BARRAU Delphine et BIZINGRE, Jol : Contribution PxData : Politique de la donne,
procd et formalisation [en ligne]. (Modifi le 06/04/2016). Disponible sur : < http://blog.conix.fr/>
(Consult le 06/04/2016)
2
CROZAT, Stphane, Chanes ditoriales et rditorialisation de contenus numriques [en ligne], in
Lisette Calderan, Pascale Laurent, Hlne Lowinger and Jacques Millet. Le document numrique
l'heure du web, ADBS, pp.179-220, 2012. (Sciences et techniques de l'information). Disponible sur :
<https://hal.inria.fr/hal-00740268> (Consult le 04/04/2016)
3
CLMENT, Delphine, BEN HASSINE, Soumaya, COEUGNIET, Sbastien et al. : La gestion de
donnes multi-sources : de la thorie la mise en uvre dans le cadre dun rfrentiel client unique, in
Laure Berti-quille (dir.), La qualit et la gouvernance des donnes au service de la performance des
entreprises, Lavoisier, Paris, 2012, pp.177-216.
4
GOETZ, Michele: MDM : highly recommended, still misunderstood [en ligne]. (Modifi le 03 juin
2014) Disponible sur :<http://blogs.forrester.com/michele_goetz/ > (Consult le 04/04/2016)
5
TALBURT, John R. and ZHOU, Yinle : Entity Information Life Cycle for Big Data : Master Data
Management and Information Integration, Morgan Kaufmann, 2015
6
PEYRET, Henry : Do not confuse Data Governance with Data Management [en ligne]. (Modifi le
7 fvrier 2016) Disponible sur : <http://blogs.forrester.com/henry_peyret/> (Consult le 04/04/2016)
7
SI-SAID CHERFI, Samira, AKOKA, Jacky, COMYN-WATTIAU, Isabelle : La qualit des modles
de donnes, in Laure Berti-quille (dir.), La qualit et la gouvernance des donnes au service de la
performance des entreprises, Lavoisier, Paris, 2012, pp.75-115.
8
EVELSON, Boris: Make data confidence part of your BI architecture [en ligne]. (Modifi le 29
novembre 2012) Disponible sur : <http://blogs.forrester.com/boris_evelson/> (Consult le 04/04/2016)
9
HENDERSON, Xavier : La qualit des donnes et le Big Data [en ligne, srie de 4 articles].
(Modifi en fvrier 2014). Disponible sur : <http://www.gouvinfo.org/IAI/la-qualite-des-donnees-et-
le-big-data/ (Consult le 04/04/2016)
10
Les dimensions de la qualit de donnes, fiches ExQi COMPRENDRE [en ligne]. (Modifi en aout
2013). Disponible sur : <http://exqi.asso.fr/site/medias/> (Consult le 04/04/2016)
11
CLMENT, Delphine et LABOISSE, Brigitte : Cration dun rfrentiel dindicateurs de mesure de
la qualit des donnes CRM [en ligne], in Actes du 3e Atelier Qualit des donnes et Connaissances,
23 janvier 2007, Namur, Belgique, pp. 5-14. Disponible sur : < https://conferences.telecom-
bretagne.eu/qdc2007/> (Consult le 04/04/2016)
12
BERTHIER, Thierry et TEBOUL, Bruno : Valeur et Vracit de la donne: Enjeux pour l'entreprise
et dfis pour le Data Scientist [en ligne] in Actes du colloque La donne n'est pas donne , cole
Militaire23 mars 2015. Disponible sur : <https://hal.archives-ouvertes.fr/> (Consult le 04/04/2016)
13
REDMAN, Thomas : Data's credibility problem [en ligne]. (Modifi en dcembre 2013) Disponible
sur :< https://hbr.org/2013/> (Consult le 04/04/2016)
14
LANEY, Doug: Applied Infonomics: Why and How to Value Your Information as an Asset [en
ligne]. (Modifi le 15/10/2015) Disponible sur : < http://blogs.gartner.com/doug-laney/> (Consult le
04/04/2016)
15
Les dimensions de la qualit de donnes, op. cit
16
HARRATHI, Rami et CALABRETTO, Sylvie : Un modle de qualit de linformation, in
EGC'2006, Lille. pp. 299-304.
17
WANG, Richard Y. and STRONG, Diane M. : Beyond Accuracy: What Data Quality Means to Data
Consumers, in Journal of Management Information Systems, Vol. 12, No. 4, Spring, 1996, pp. 5-33.
18
Les dimensions de la qualit de donnes, op. cit.
19
Les interdpendances de la qualit de donnes, fiche ExQi COMPRENDRE [en ligne]. (Modifi en
aout 2013). Disponible sur : <http://exqi.asso.fr/site/medias/> (Consult le 04/04/2016)