"Superbe maison d’architecte avec vue sur le lac" - Compte-rendu du talk de Thomas Vial à La Duck Conf 2018
Le datalake est un buzzword, un objet ambivalent et compliqué de nos systèmes d’informations. Portés par la hype, des architectes conçoivent des cluster Hadoop hors-sol, qui se retrouvent trop souvent sans utilisateurs, sans données ou sans applications métiers. L’éléphant accouche d’un souriceau.
Dans cette session, Thomas Vial nous invite à sortir la tête de la vague big data et à revenir sur la terre ferme. Il nous guide dans une démarche pragmatique, pour construire les bases saines d’un projet de datalake. Il nous délivre un condensé précieux de 5 années d’expériences, dans une série de conseils simples et efficaces, organisés selon 3 chantiers prioritaires.
Retrouvez la présentation complète du talk sur slideshare.
Premier chantier : construire une offre de service.
Le datalake est un projet IT comme un autre. Il doit être construit à partir de besoins métiers. Son intérêt n’est validé que lorsqu’il a démontré une valeur concrète. Il est donc prioritaire d’impliquer les utilisateurs, de les accompagner, de communiquer autour de la vie de cette nouvelle plateforme. Il s’agira de constituer une équipe datalab faisant le pont entre les projets métiers et les données.
Deuxième chantier prioritaire : l’ingestion de données.
Un datalake vit par et pour la donnée. Il faut donc bâtir un framework d’intégration, pour simplifier au maximum l’ajout de nouvelles sources. Le paradigme du datalake est de charger la donnée brute, telle quelle, puis de la transformer sur la plateforme. Cette approche permet de rapidement rendre accessible des sources historiquement difficiles, et de croiser des informations issues de systèmes différents.
Troisième chantier essentiel : la gouvernance.
L’objet datalake fait souvent peur et entraîne des comportement de gestion inadéquats. Il s’agit pourtant de gouverner avec le bon sens commun qui devrait présider à tout projet IT. On parle ici de comités de suivi réguliers, de règles d’éligibilité des projets pour arbitrer la roadmap générale, d’un minimum vital d’organisation des données, ou encore de réalisme technique pour ne pas construire un cluster destiné à n'abriter que 100 Go de données.
En regardant cette conférence, vous repartirez avec les objectifs prioritaires pour construire les premiers plans de votre datalake, et les éléments clés pour pérenniser son succès.