Publications de Rémy Saissy

Medindo a performance do seu cluster Hadoop

O Hadoop não é uma aplicação web, um banco de dados e tampouco um webservice, você não conseguiria estressar um cluster Hadoop com teste de carga tradicional (afinal ele é feito pra suportar grandes volumes de dados). Realizar um teste de estresse no cluster é um passo geralmente esquecido, porém muito importante quando você monta o seu ambiente hadoop, afinal, é importante ter um benchmark do cluster, ou seja, avaliar seu desempenho, executando uma variedade de tipos de jobs cada uma focado em um campo específico…

Lire la suite
Archi & techno

Quelles solutions pour sécuriser un Data Lake sous Hadoop ?

Après la plateforme de batch scalable, le Data Lake, cette notion selon laquelle toutes les données de l'entreprise devraient être déversées et stockées sans discernement dans un entrepôt commun — de préférence un cluster Hadoop — est devenu au cours de l'année, un nouvel élément central de la communication des éditeurs autour d'Hadoop. Stocker de grands volumes de données dans un même cluster implique selon les industries, de faire cohabiter des données normales avec des données sensibles (données personnelles, données privées d'un client à qui on revend son service en…

Lire la suite
Archi & techno

Qu’est ce que Storm ?

Le domaine des big data est très prolifique, de nouveaux produits sortent régulièrement, certains meurent rapidement, d'autres, au contraire, connaissent un certain succès. Storm appartient à la seconde catégorie. Peut-être que vous vous demandez ce qu'est Storm. Est ce un concurrent d'Hadoop ? Une solution pour faire du requêtage en temps réel ? Encore autre chose ? Nous allons tenter, au travers de cet article, de vous aider à comprendre ce qu'est Storm et pourquoi il remporte un certain succès aujourd'hui.

Lire la suite

Hadoop 2 stable release is coming and why you should care

The first beta version of Hadoop 2 has just been released. It is the 2.1.0. More interesting, the stable version is expected to follow by mid-September. Only a few bugs away from Hadoop 2! That's a good news but you might be wondering why you should care about it? After all, the most important is what this new major version can bring to your next datalab or to your production cluster, isn't it? In this article, we will cover the differences between Hadoop 1 and…

Lire la suite
Archi & techno

Hadoop 2 en version stable : quel intérêt pour vous ?

Ca y est, Hadoop 2, ou plus précisément la 2.1.0 est passée en version "bêta". Et, plus intéressant, la sortie du four de la première version estampillée "stable", la 2.2.0, est maintenant officiellement prévue aux alentours de la mi-Septembre 2013. Nous ne sommes plus qu'à quelques bugs d'Hadoop 2 ! Tout ça c'est très bien mais quel est vraiment l'intérêt de cette nouvelle version majeure pour un datalab, un cluster de production, un poc ? Dans cet article, nous allons tâcher de balayer les différences majeures à…

Lire la suite
Archi & techno

Ambari, la supervision de cluster Hadoop

Présentation Lors du Hadoop Summit 2013, HortonWorks a présenté Ambari, un projet d’inbubation Apache destiné à la supervision et à l’administration de clusters Hadoop. Ambari se positionne en alternative à Chef, Puppet ou encore au Cloudera Manager. Le projet est aujourd’hui au stade de l’incubation, ce qui signifie que ses fonctionnalités sont encore limitées. Ambari ne se limite pas à Hadoop mais permet de gérer également les outils de l’écosystème. Les outils annoncés sont : HDFS Hadoop 1.0 uniquement, la version 2.0 devrait être supportée…

Lire la suite
Archi & techno

Hadoop Summit 2013 à Amsterdam – CR de deux jours de conférences techniques

Présentation Le Hadoop Summit arrive en Europe, et pour sa première édition Européenne, c’est la ville d’Amsterdam qui a été choisie. Beaucoup d'acteurs importants du monde Hadoop étaient présents : LinkedIn, HP, RedHat, Yahoo, HortonWorks, Cloudera, Microsoft, … L’article qui suit est un retour sur ce qui nous avons de retenu d’un point de vue architecture et technique de ces deux jours riches en conférences.

Lire la suite

Hadoop in my IT department: benchmark your cluster

The stress test is a very important step when you go live. Good stress tests help us to: ensure that the software meets its performances requirements ensure that the service will deliver a fast response time even under a heavy load get to now the scalability limits which in turn is useful to plan the next steps of the development Hadoop is not a web application, a database or a webservice. You don't stress test a Hadoop job with a heavy load. Instead, you need…

Lire la suite
Archi & techno

Hadoop dans ma DSI : benchmarker son cluster

Le test de performances est un élément incontournable des mises en production. De bons tests de performances permettent en effet : de s'assurer que la solution déployée répond aux attentes en termes de performances que le service rendu aux utilisateurs sera rapide sans mettre les serveurs à genoux de tester les limites de l'architecture déployée Hadoop n'est pas une application web, une base de données ou encore un webservice. Avec Hadoop, on ne teste pas les performances d'un job sous une haute charge d'utilisation. Au…

Lire la suite
Infrastructure and Operations

Hadoop in my IT department: How to plan a cluster?

Ok, you have decided to setup a Hadoop cluster for your business. Next step now, planning the cluster… But Hadoop is a complex stack and you might have many questions: HDFS deals with replication and Map Reduce create files… How can I plan my storage needs? How to plan my CPU needs? How to plan my memory needs? Should I consider different needs on some nodes of the cluster? I heard that Map Reduce moves its job code where the data to process is located……

Lire la suite