Passons au niveau supérieur dans la qualité des données référentielles - Compte-rendu du talk d’Ekaterina Simonenko et de Selima Masmoudi à la Duck Conf 21
Pitch
Ekaterina Simonenko et Selima Masmoudi, OCTO Technology
Déployer des outils de gestion des données de références (Master Data Management: MDM) est primordial pour le succès des initiatives data mais présente de nombreux défis. Nous partagerons notre vision sur la manière d'aborder ce type de sujet.
Take Away
Nos recommandations pour prendre soin des assets les plus précieux que sont les Master Data tout au long de leur cycle de vie.
Il était une situation courante en entreprise
Un analyste travaillant au département du risque a pour tâche de déterminer la solvabilité d’un client dénommé Mr X. En étudiant le dossier, il remarque dans la base client un second profil du même nom, mais avec un portefeuille de créances différent. Est-ce un doublon, un homonyme ? Peut-on encore financer ce client ? Mystère !
Appel à un ami : l’IT
Notre analyste sollicite l’IT pour avoir des éléments de réponse, mais l’investigation des raisons de ces doublons dans les systèmes du SI s'avère fastidieuse et nécessite une analyse approfondie. C’est ainsi que la réponse qu’obtient notre analyste est : " patientez, nous reviendrons vers vous ! "
Appel à un ami pas toujours fiable: l’intuition
Notre analyste ne pouvant pas se permettre une telle attente, au risque de faire perdre un client à l’entreprise, va donc prendre sa décision en se reposant sur son intuition au lieu de pouvoir faire confiance aux données, et espérer que son intuition soit juste.
Morale de l’histoire
Ce scénario comme tant d’autres scénarios similaires dans toutes les entreprises manipulant des données au quotidien, illustre le manque de gestion des données référentielles (exemple: les données clients), le fameux Master Data Management.
Master Data Management: qui es-tu ?
Les Master Data sont les actifs clés autour desquels s’articulent les activités de l’entreprise et sur lesquels reposent un grand nombre de décisions. C’est à cet effet que leur gestion revêt une importance capitale.
Cette gestion, appelée Master Data Management, consiste à gérer l'intégralité du cycle de vie de la donnée de référence tout en assurant sa qualité.
Les principaux bénéfices du MDM sont les suivants:
Avec un MDM opérationnel, notre analyste aurait eu un seul portefeuille client de qualité pour Mr X et aurait été à même de vérifier sa solvabilité plus rapidement.
Les outils MDM permettent de tracer la donnée et de contrôler leur utilisation : c’est notamment très important d’un point de vue réglementaire (exemple : GDPR).
Architecture Master Data Management : à quoi ressembles-tu ?
Qu’il s’agisse d’une solution éditeur ou d’une solution custom, un outil MDM sera constitué des modules permettant d’assurer les fonctionnalités suivantes :
- Des interfaces permettant l’intégration des données sources depuis les différents systèmes de l'entreprise.
- Des modules de mise en qualité (Standardisation, Nettoyage, Dédoublonnage) pour corriger, standardiser et redresser ces données sources.
- Ces données mises en qualité sont sauvegardées dans une base de données centrale et structurée suivant un Data Model pour permettre une vue 360°.
- Des interfaces utilisateurs permettant à certains collaborateurs appelés Data Steward de mener des opérations de mise en qualité non automatisées.
- Un composant de sécurité pour protéger la donnée et en sécuriser l’accès.
- Un module de mise en conformité ayant pour but d’automatiser la traçabilité, la purge et l’archivage des données
- Un composant permettant la synchronisation du MDM avec les autres systèmes du SI.
Focus mise en qualité des données
La résolution de ces problématiques de qualité de données présente de nombreux défis.
En effet, il est difficile d’aligner les différentes parties prenantes de l’entreprise sur des définitions communes, des seuils de qualité partagés et sur le choix des valeurs de référence à utiliser. Se pose aussi la question du niveau auquel ces opérations de mise en qualité doivent être effectuées et via quels outils (directement dans le MDM, via un outil de Data Quality Management) ?
Le dédoublonnage, en plus d’être un processus long, est aussi un exercice périlleux où le défi métier consiste à trouver le bon équilibre entre les faux positifs (les doublons non détectés) et les faux négatifs (les données recensées à tort comme étant des doublons).
Nos recommandations pour la mise en qualité
- Profiler les données permet d’estimer le niveau de qualité initial, de le partager et de déterminer les efforts de remédiation.
- Définir avec le consommateur final la cible de qualité de données adaptée au cas d'usage et les données prioritaires à mettre en qualité. Par exemple, pour savoir quelle donnée est obligatoire pour prendre une décision d’octroi de crédit, mieux vaut demander à l’analyste, plutôt qu'à l’opérateur de saisie.
- Établir des indicateurs clés de qualité, les communiquer et les partager permet d’acculturer les différentes parties prenantes de l'entreprise.
Au niveau spécifique du dédoublonnage, nos recommandations sont :
- Ne pas réinventer la roue et s’appuyer sur les standards de qualité de données.
- Inclure le métier dès le départ pour la revue des itérations de qualité de données et les communications d’avancement.
- Admettre que nous puissions nous tromper au moment du dédoublonnage et donc potentiellement défusionner certaines données.
- Ne pas tenter de dédoublonner en une seule fois - si possible le faire par sous-groupes.
Synchronisation MDM : comment propager l’information dans le SI de l’entreprise ?
La synchronisation est un enjeu majeur du MDM : tout ce qui se passe au niveau du MDM doit être reflété dans les systèmes avec lesquels il se synchronise, qu’il s’agisse des systèmes consommateurs de ces données ou des systèmes producteurs de ces données. Cela suggère que la définition de l’architecture MDM est un sujet d’architecture d’entreprise continuellement mis à jour pour assurer l’alignement des données référentielles avec l’ensemble des systèmes.
Il existe plusieurs modèles d'intégration d’un MDM qui diffèrent principalement par les points de création et de consommation de la donnée. Bien identifier les différents éléments producteurs et consommateurs de données est un prérequis indispensable à la mise en place d’un MDM.
Le Gartner (lien) référence quatre modèles distincts d’intégration d’un MDM.
- Consolidation
Modèle adapté au cas d’usage analytique.
- Registre
Modèle adapté à des fins de dédoublonnage principalement, la gestion des autres aspects de la qualité de données se fait au niveau des sources de données.
- Coexistence
Modèle adapté aux situations où la qualité doit être gérée en central, la donnée continue à être produite par les sources, qui doivent et peuvent être synchronisées avec la version “golden” produite par le MDM.
- Centralisé
Modèle adapté à la situation où nous pouvons faire du MDM l’unique point de modification de la donnée.
Nos recommandations sur l’intégration du MDM
Architecture orientée cas d’usage
Le choix de l’architecture MDM à mettre en place doit être dicté par les cas d’usages MDM. L’architecture MDM n’est pas quelque chose de nécessairement figé : nous constatons bien souvent une évolution de cette dernière pour suivre les changements de l’organisation de l’entreprise et des cas d’usages.
Intégrer l’agilité dans la définition de l’architecture
L’approche en méthodologie agile et la priorisation des cas d’usage vous permettront de vérifier rapidement si les choix faits en termes d’architecture MDM répondent bien aux besoins ciblés par les cas d’usage et satisfont les utilisateurs/consommateurs de données.
L’agilité, au travers des différentes itérations et expérimentations de vos projets MDM et l’apparition de nouveaux cas d’usages, vous donneront de précieux renseignements pour faire évoluer votre architecture MDM.
Pensez IA et DevOps
Utilisez les dernières tendances de l’IA, du machine learning et du DevOps comme des accélérateurs pour vos projets MDM.
Exemples :
- librairies Python : Dedupe, DataCleaner ;
- algorithmes de qualité de données: Random Forest...
Impliquez les utilisateurs dès le premier jour du projet
Que ce soit à travers la définition des cas d’usage, les opérations de mise en qualité de données ou la création de tableaux de bord, il est nécessaire d’impliquer les utilisateurs car ils seront les utilisateurs du MDM. Embarquer et communiquer auprès des utilisateurs sur le MDM permettra de les sensibiliser et de diffuser une culture data au sein de l’entreprise.
Pour conclure
- Pour en savoir plus, découvrez notre formation "Master Data : gérer et gouverner efficacement vos données de référence"