Publications de Thomas Vial

Data Science

Marier machine learning et physique : le point de vue d’un data scientist

Cet article s'adresse à mes collègues data scientists. Il s'appuie en grande partie sur un article de 2017 intitulé “Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data” [TGDS]. [TGDS] discute des apports de la data science auprès des chercheurs scientifiques. Notre propos, dans cet article, est de résumer [TGDS] à la lumière de nos pratiques usuelles de data science, et de faire l'exercice inverse : comment ces pratiques peuvent-elles s'inscrire dans l'effort scientifique ? Comment présenter notre démarche à des scientifiques désireux…

Lire la suite
Archi & techno

Avez-vous vraiment besoin d’un architecte big data ?

“Architecte big data”, ce sont trois mots qui vont bien ensemble. On les entend souvent, et une recherche Google remonte un nombre certain de CV et d’offres d’emploi. Moi-même, dans les réponses commerciales d’OCTO, je me cite souvent comme “architecte big data”, à même de faire partie d’une équipe projet chez le client. Une partie du travail consiste souvent à expliquer les concepts de big data aux architectes "tout court" du client, avant de les rassurer en leur montrant que les systèmes que nous construisons…

Lire la suite
Archi & techno

Hadoop Summit 2014 : un compte-rendu (partie 1/3)

La deuxième édition du Hadoop Summit s’est déroulée à Amsterdam il y a presque 1 mois. Elle a eu lieu dans un contexte florissant pour Hadoop : la version 5 de la plateforme (CDH) est sortie pendant l’événement, tandis que la version HDP 2.1, d’Hortonworks, devrait officiellement voir le jour à la fin du mois d’avril. OCTO était bien sûr présent, en tant que cabinet fortement positionné sur Big Data et Hadoop, et en tant que partenaire de l’éditeur Hortonworks qui co-organisait l’événement avec Yahoo!.…

Lire la suite
Évènement

Hadoop Summit 2013 à Amsterdam – La suite

Cet article est une suite à celui de Rémy, relatant nos pérégrinations au Hadoop Summit d’Amsterdam. Dans celui-ci, nous nous intéresserons d’abord à des retours d’expérience de l’écosystème Hadoop en entreprise : mise en place, adoption, et applications pratiques. La suite de l’article fera le compte-rendu des sessions plus techniques auxquelles j’ai pu assister.

Lire la suite
Archi & Techno

Graph databases: an overview

In a previous article, we introduced a few concepts related to graphs, and illustrated them with two examples using the Neo4j graph database. For the previous years, many companies have been developing graph databases -- as software vendors like Neo Technology (Neo4j), Objectivity (InfiniteGraph), Sparsity (dex*), or by building their own custom solution to integrate it into their applications, like LinkedIn or Twitter. Thus it can be hard to grasp a global picture of this rich landscape in continuous evolution. In this new article focused…

Lire la suite
Archi & techno

Introduction au traitement des graphes volumineux

Les graphes sont une solution de choix pour modéliser des problèmes de la vie réelle, car ils sont intuitifs, flexibles (plus que des tables dans un SGBD relationnel), et parce que la théorie des graphes évolue depuis déjà quelques siècles. C’est la raison pour laquelle plusieurs bases de données en graphe existent, la plus connue étant sans doute Neo4j. Un constat similaire peut s’appliquer au traitement en masse des graphes. Les algorithmes sont nombreux, bien connus et ont des applications immédiates : recherche de plus…

Lire la suite
Archi & Techno

Introduction to large-scale graph processing

Graphs are very attractive when it comes to modelling real-world data, because they are intuitive, flexible (more than tables and rows in a RDBMS), and because the theory supporting them has been maturing for centuries. As a consequence, there are several graph databases available, Neo4j being one of the most renowned. The same goes for graph processing, algorithms are numerous and well understood and have immediate applications: single-source shortest path, route finding, loop detection, subgraph matching, ... to name a few. Neo4j comes with a…

Lire la suite
Archi & techno

L’écosystème CEP Esper

Dans son introduction au Complex Event Processing (CEP), Mathieu avait annoncé une série d'articles sur les solutions de CEP. Nous l'inaugurons avec cet article sur Esper. Esper, édité par EsperTech, est une plateforme Java dédiée au CEP et au traitement de flux d'événements (ESP - event stream processing). C'est une collection de frameworks et d'outils servant à construire et intégrer des applications orientées événements. Les 3 packages de la suite Esper couvrent la plupart du socle technique de telles applications. EsperTech s'y réfère en tant…

Lire la suite