Publications de Benjamin Joyen-Conseil

Archi & techno

Compte-Rendu de Matinale : Levez la malédiction du passage de l’IA en production

Jeudi 29 novembre, l’équipe Big Data Analytics, en charge des sujets d'Intelligence Artificielle à OCTO Technology, a présenté au cours d'une Matinale sa vision de l'industrialisation de l'IA (voir la vidéo de la Matinale, obtenir les slides). L’IA, actuellement portée par la hype, est un buzzword qui veut souvent dire tout et n’importe quoi. Data scientists, métiers, marketing, utilisateurs, etc. chacun y va de sa définition. Nos clients se retrouvent avec des POCs d’applications d’IA sans fin qui peinent à être industrialisés et à être intégrés dans…

Lire la suite
Archi & techno

La vision des OCTOs pour les 5 à 10 prochaines années

En ce début d’année 2018, nous avons demandé à quelques Octos comment ils prévoient l’évolution de leur métier, des technologies, les ruptures, les nouvelles approches, etc. C’est un exercice de style qui ne prétend pas nécessairement dire le vrai, mais qui a le mérite de présenter certaines convictions et d’inviter au débat. Partagez avec nous vos réactions et analyses, en réagissant à cet article ! Les plateformes cloud comme nouveaux runtimes Variables, disques et machines seront dépassés comme l’ont été les pointeurs, bandes et architectures…

Lire la suite
Archi & Techno

The evolution of bottlenecks in the Big Data ecosystem

I propose in this paper a chronological review of the events and ideas that have contributed to the emergence of Big Data technologies of today and tomorrow. What we can see regarding bottlenecks is that they move according to the technical progress we make. Today is the JVM garbage collector, tomorrow will be a different problem. Here is my side of the story:

Lire la suite
Archi & techno

L’évolution des bottlenecks dans l’écosystème BigData

Je vous propose dans cet article une revue chronologique des événements et des idées qui ont contribué à l’émergence des technologies Big Data d’aujourd’hui et de demain. Ce que nous pouvons constater au niveau des bottlenecks (=goulots d’étranglements) est qu’ils se déplacent en fonction des avancées techniques que nous faisons. Aujourd’hui c’est le garbage collector de la JVM, demain ce sera un problème différent. Voici ma version de l’Histoire :

Lire la suite
Arqui e tecno

Melhorando o Desempenho dos Jobs Hadoop no HDInsight

  Há algum tempo ando experimentando alguns “macetes” para lidar com os dados de forma eficiente dentro do HDInsight, e como tenho obtido resultados conclusivos, fiz esse artigo para compartilhar com vocês essa experiência. Importante esclarecer que este artigo não se trata especificamente de uma comparação de desempenho e sim de uma experiência empírica, deliberadamente subjetiva, explicando a minha visão e as soluções que encontrei para otimizar o desempenho dos Jobs na plataforma BigData da Microsoft. Meu caso de uso é simples: uma POC com um cluster…

Lire la suite
Data

J’ai testé pour vous : PigUnit

Aujourd’hui, je vais parler d’Apache Pig, un outil de traitement type batch s’appuyant sur Hadoop, et de test unitaire. Le but de cet article est de présenter PigUnit comme potentielle solution pour nos tests et d’automatisation des développements. Sur la fin, je donne quelques tips et contournements aux bugs existants.

Lire la suite
Archi & techno

Améliorer la performance des jobs Hadoop sur HDInsight

Cela fait quelque temps que j’expérimente des Tips & Tricks sur mes algos pour traiter de la data de façon performante et comme ça a été plutôt concluant dans mon cas, j’ai mis tout ça au propre pour les partager ici avec vous. Les quatre optimisations que je présente ici vont faire passer le temps d’exécution de 45 minutes à moins de 3 minutes. La plus importante étant le passage d’un script Pig à un code MapReduce.

Lire la suite