Meetup PerfUG [26/06/2018] : Comment gérer un cluster Hadoop de 2800 noeuds et 150 M de conteneurs ?

le 21/08/2018 par Benjamin Brabant

Mettre en oeuvre un cluster de plus de 2800 noeuds, 150 millions de conteneurs yarn par jour nécessite de mettre en oeuvre des principes d’architecture pour scaler, des techniques d’investigation live de la production, de fabriquer (et faire scaler) des outils de monitoring pour comprendre ce qui tourne dans le cluster. Il faut prendre des décisions de capacity planning et aider les utilisateurs à tuner leur jobs. William nous propose un survol de ce qui est fait chez Criteo pour adresser ces problématiques.

Apres quelques années passées sur les problématiques de scalabilité et de résilience de Voyages-SNCF.com, William (@willymontaz) est site reliability engineer chez Criteo. Avec son équipe, il maintient, met a jour les clusters Hadoop de Criteo et construit des outils de monitoring spécifiques à destination des développeurs.

Il sera accompagné de Nicolas Fraison, SRE depuis 2 ans de l'équipe en charge des clusters Hadoop et de l'outillage autour de cet écosystème.

Inscriptions et informations sur Meetup. Cette session sera suivie d'un pot dans les locaux d’OCTO.

Le PerfUG est un meetup parisien qui a pour objectif d'offrir un lieu d’échanges informels où toutes les personnes intéressées par l’optimisation et la performance sont les bienvenues quel que soit leur niveau. Nous sommes convaincus que la performance est une feature implicite et non négociable d'une application et pourtant bien souvent oubliée. Le PerfUG permet d'échanger idées et pratiques sur ces sujets pour obtenir plus simplement des systèmes performants. Le PerfUG souhaite faciliter la diffusion des derniers outils et des meilleures techniques pour maîtriser au plus tôt la performance d’un système informatique.