Comprendre les dataspaces

Introduction

L’objectif de cet article de blog est d’explorer la notion de dataspace (au cours de l’article nous avons choisi de retenir la version anglaise plus adoptée par la communauté), de comprendre son utilité, son fonctionnement et ses implications. Depuis plusieurs mois, nous travaillons sur les espaces de données au sein d’une grande organisation.

L’idée principale d’un dataspace repose sur une question centrale : comment créer un espace décentralisé de partage de la donnée ?

Sur les ambitions et le fonctionnement d’un dataspace, nous pouvons faire le parallèle avec le fonctionnement des emails. A l’image du protocole SMTP qui a permis de devenir un standard universel pour la messagerie électronique, un dataspace établit des règles et des standards permettant aux organisations de partager des données de manière interopérable, sécurisée et gouvernée.

Comprendre les dataspaces

Avant d’aller plus loin, il est essentiel de faire la distinction entre une plateforme de données et un dataspace. Une plateforme de données est un socle technique centralisé, regroupant les outils, infrastructures et services permettant de gérer l’ensemble du cycle de vie de la donnée. Elle offre une gouvernance homogène mais peut rapidement devenir rigide et peu adaptée à l’échange de données avec des acteurs extérieurs. Par ailleurs, ce modèle peut générer des silos de données et poser des problèmes d’interopérabilité.

À l’inverse, un dataspace est un cadre structuré et sécurisé, conçu pour permettre aux partenaires de confiance d’échanger des données de manière décentralisée. L’espace de données ne stocke pas directement les données, mais facilite leur partage en mettant en place des catalogues et des ontologies, qui standardisent la description des données afin qu’elles soient comprises et exploitables par différents acteurs.

L’ontologie joue un rôle crucial dans un espace de données. Il ne s’agit pas seulement d’un dictionnaire listant les données disponibles, mais d’un cadre définissant les relations entre elles et leurs règles d’usage. Grâce à une ontologie bien conçue, les données peuvent être exploitées de manière cohérente et efficace par tous les participants.

Une ontologie est un modèle structuré qui organise et représente les connaissances dans un domaine spécifique. Son objectif est de créer un langage commun pour partager et réutiliser des données. Les ontologies aident à clarifier le sens des données et facilitent leurs intégrations.

Source : https://perso.liris.cnrs.fr/alain.mille/enseignements/emiage/ontologies/Ontologie-1.htm

Les challenges actuels et les réponses apportées par les dataspaces

Aujourd’hui, plusieurs défis freinent le partage de données à grande échelle. Les données sont cloisonnées, limitant l’accès aux informations inter-organisations. La sécurité et la conformité réglementaire posent également des challenges, notamment en ce qui concerne la souveraineté des données. Enfin, l’absence de standards communs rend difficile la mise en place d’un cadre d’échange fluide entre différents acteurs.

Les dataspaces apportent une réponse à ces défis en instaurant un cadre structuré et interopérable. Ils :

  • Garantissent la sécurité et la confidentialité des échanges,
  • Assurent la conformité avec les réglementations en place, notamment le RGPD
  • Permettent une plus grande flexibilité dans l’échange des données.

L’un des cas d’usage les plus pertinents est celui de la mobilité connectée, où les données des véhicules, des infrastructures et des services de transport peuvent être échangées pour améliorer la sécurité routière et fluidifier le trafic.

Une initiative Européenne structurée

L’Union Européenne a investi 1,7 milliard d’euros pour développer un marché unique de la donnée. Cette initiative couvre plusieurs secteurs : la santé, la finance, l’énergie, la mobilité, l’industrie, l’agriculture et l’administration publique. Pour structurer ces initiatives, une architecture de référence a été définie, avec pour objectif d’unifier les échanges de données à l’échelle européenne.

Ce projet repose sur un cadre technologique inspiré des standards existants, comme le protocole SMTP pour l’envoi des e-mails évoqué en introduction. De même, l’architecture des dataspaces repose sur un standard ouvert, permettant à n’importe quel acteur de s’y connecter en toute sécurité. L’Union Européenne a confié le développement de ces standards à la Fondation Eclipse, qui met à disposition un framework open-source.

Représentation du connecteur Eclipse et de son fonctionnement.

Pour illustrer le fonctionnement d’un dataspace, les intervenants comparent son architecture à celle du transport aérien. Chaque pays garde la souveraineté sur son espace aérien, et un avion ne peut pas le traverser sans autorisation. De la même manière, un dataspace met en place des règles et des contrôles permettant d’assurer que seules les entités autorisées peuvent accéder à certaines informations.

Image faisant l'analogie du data et control plane avec l'aviation.

Dans cette architecture, deux couches sont distinctes :

  • Le Data Plane, qui représente le transport des données (comme un flux FTP ou une API).
  • Le Control Plane, qui assure la gouvernance, la sécurité et la conformité des échanges.

Cas d’usage concret : les Jeux Olympiques de Paris

Un cas d’usage opérationnel des dataspaces a été mis en place lors des Jeux Olympiques de Paris. Face à l’afflux massif de voyageurs arrivant du monde entier, il était crucial d’optimiser l’organisation des flux aéroportuaires. Un hub virtuel de données a ainsi été créé pour synchroniser les informations provenant des compagnies aériennes, des services de transport et des autorités.

Grâce à cet espace de données, il était possible d’anticiper l’arrivée des délégations, de fluidifier leur passage en douane et d’optimiser leur transfert vers les sites olympiques. Bien que ce projet ait été temporaire, il démontre le potentiel des espaces de données pour résoudre des problématiques logistiques complexes.

Image représentant un hub virtuel pendant les JO de Paris 2024.

Les enjeux et défis des dataspaces

La mise en œuvre des dataspaces soulève plusieurs défis, notamment en matière de gouvernance et d’adoption. L’un des principaux obstacles est l’adhésion des acteurs, notamment les entreprises privées qui restent encore en phase d’observation. Certaines entreprises adoptent une approche prudente, évaluant l’intérêt de la démarche avant d’investir massivement.

Un autre enjeu majeur est le rôle des grands fournisseurs de cloud public (Azure, GCP, AWS). Ces acteurs ont bien compris l’importance des espaces de données et cherchent à y intégrer leurs infrastructures et services. Le risque est que les dataspaces, bien que conçus comme des plateformes ouvertes et souveraines, finissent par être hébergés sur les solutions des hyperscalers, compromettant ainsi leur indépendance.

D’un point de vue technique, implémenter un espace de données est complexe. Si certaines entreprises ont choisi d’héberger leur propre connecteur, d’autres préfèrent déléguer cette tâche à des acteurs spécialisés comme Amadeus, qui propose un service de connecteurs mutualisés.

Conclusion et Perspectives

Les dataspaces sont encore émergents, mais la Commission européenne est en avance sur ce sujet par rapport aux autres régions du monde. Cependant, l’adoption massive reste un défi, notamment en raison des difficultés à aligner les acteurs publics et privés autour d’un modèle économique viable.

L’enjeu principal repose sur la création de cas d’usage concrets pour démontrer la valeur des dataspaces.

Enfin, ces dataspaces s’inscrivent dans une démarche réglementaire plus large portée par l’Europe. Ce cadre législatif sera déterminant pour structurer et accélérer l’adoption des dataspaces à grande échelle.