Publications de Thomas Vial

Data Science

Marier machine learning et physique : le point de vue d’un data scientist

Cet article s'adresse à mes collègues data scientists. Il s'appuie en grande partie sur un article de 2017 intitulé “Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data” [TGDS]. [TGDS] discute des apports de la data science auprès des chercheurs scientifiques. Notre propos, dans cet article, est de résumer [TGDS] à la lumière de nos pratiques usuelles de data science, et de faire l'exercice inverse : comment ces pratiques peuvent-elles s'inscrire dans l'effort scientifique ? Comment présenter notre démarche à des scientifiques désireux…

Lire la suite
Archi & techno

Avez-vous vraiment besoin d’un architecte big data ?

“Architecte big data”, ce sont trois mots qui vont bien ensemble. On les entend souvent, et une recherche Google remonte un nombre certain de CV et d’offres d’emploi. Moi-même, dans les réponses commerciales d’OCTO, je me cite souvent comme “architecte big data”, à même de faire partie d’une équipe projet chez le client. Une partie du travail consiste souvent à expliquer les concepts de big data aux architectes "tout court" du client, avant de les rassurer en leur montrant que les systèmes que nous construisons…

Lire la suite
Archi & techno

Hadoop Summit 2014 : un compte-rendu (partie 1/3)

La deuxième édition du Hadoop Summit s’est déroulée à Amsterdam il y a presque 1 mois. Elle a eu lieu dans un contexte florissant pour Hadoop : la version 5 de la plateforme (CDH) est sortie pendant l’événement, tandis que la version HDP 2.1, d’Hortonworks, devrait officiellement voir le jour à la fin du mois d’avril. OCTO était bien sûr présent, en tant que cabinet fortement positionné sur Big Data et Hadoop, et en tant que partenaire de l’éditeur Hortonworks qui co-organisait l’événement avec Yahoo!.…

Lire la suite
Évènement

Hadoop Summit 2013 à Amsterdam – La suite

Cet article est une suite à celui de Rémy, relatant nos pérégrinations au Hadoop Summit d’Amsterdam. Dans celui-ci, nous nous intéresserons d’abord à des retours d’expérience de l’écosystème Hadoop en entreprise : mise en place, adoption, et applications pratiques. La suite de l’article fera le compte-rendu des sessions plus techniques auxquelles j’ai pu assister.

Lire la suite
Archi & techno

Introduction au traitement des graphes volumineux

Les graphes sont une solution de choix pour modéliser des problèmes de la vie réelle, car ils sont intuitifs, flexibles (plus que des tables dans un SGBD relationnel), et parce que la théorie des graphes évolue depuis déjà quelques siècles. C’est la raison pour laquelle plusieurs bases de données en graphe existent, la plus connue étant sans doute Neo4j. Un constat similaire peut s’appliquer au traitement en masse des graphes. Les algorithmes sont nombreux, bien connus et ont des applications immédiates : recherche de plus…

Lire la suite
Archi & techno

L’écosystème CEP Esper

Dans son introduction au Complex Event Processing (CEP), Mathieu avait annoncé une série d'articles sur les solutions de CEP. Nous l'inaugurons avec cet article sur Esper. Esper, édité par EsperTech, est une plateforme Java dédiée au CEP et au traitement de flux d'événements (ESP - event stream processing). C'est une collection de frameworks et d'outils servant à construire et intégrer des applications orientées événements. Les 3 packages de la suite Esper couvrent la plupart du socle technique de telles applications. EsperTech s'y réfère en tant…

Lire la suite
Archi & techno

Outiller un audit de base de données

Chez OCTO nous réalisons beaucoup d’audits d’applications et ceux-ci comportent de plus en plus souvent un volet sur la base de données. Les motivations des audits sont diverses : le modèle de données est-il conforme à l’état de l’art ou à un standard d’entreprise ? Représente-t-il des risques pour l’application (performances, intégrité) ? Sera-t-il capable de supporter le lancement d'une telle fonctionnalité, triplant le nombre d’utilisateurs et la volumétrie ? Dans 10 ans et après 10 générations de prestataires, sera-t-il toujours lisible ? Comment mesurer…

Lire la suite
Archi & techno

CICS vu d’avion

Cet article a pour but de vous présenter CICS de manière très macroscopique. Baignant moi-même dans le monde dit « distribué » (par opposition à celui du mainframe, le host), je trouve intéressant de faire l’exercice d’y voir autre chose qu’une boîte noire mythique, dont la seule description fait appel à un jargon ésotérique... L’exercice n’est pas pour autant inutile, puisque nos missions chez OCTO impliquent souvent de s’intégrer avec de tels systèmes. Vous allez voir d’ailleurs que les parallèles avec le distribué sont plus…

Lire la suite