Hadoop

Hadoop 2 stable release is coming and why you should care

The first beta version of Hadoop 2 has just been released. It is the 2.1.0. More interesting, the stable version is expected to follow by mid-September. Only a few bugs away from Hadoop 2! That's a good news but you might be wondering why you should care about it? After all, the most important is what this new major version can bring to your next datalab or to your production cluster, isn't it? In this article, we will cover the differences between Hadoop 1 and…

Read more

Hadoop 2 en version stable : quel intérêt pour vous ?

Ca y est, Hadoop 2, ou plus précisément la 2.1.0 est passée en version "bêta". Et, plus intéressant, la sortie du four de la première version estampillée "stable", la 2.2.0, est maintenant officiellement prévue aux alentours de la mi-Septembre 2013. Nous ne sommes plus qu'à quelques bugs d'Hadoop 2 ! Tout ça c'est très bien mais quel est vraiment l'intérêt de cette nouvelle version majeure pour un datalab, un cluster de production, un poc ? Dans cet article, nous allons tâcher de balayer les différences majeures à…

Read more

Petit-déjeuner Big Data à Genève : usages et opportunités dans nos SI et retour d’expérience sur la solution Hadoop

  Petit-déjeuner mercredi 12 juin à Genève Big Data, MapReduce, calculs distribués, NoSQL, sont autant de buzz words et de concepts cantonnés jusqu’à maintenant à quelques acteurs spécifiques. Pourtant, il est un état de fait : nous sommes assis sur une quantité gigantesque de données dont il est difficile d’extraire l’information… D’autre part MapReduce est une solution éprouvée pour analyser d’énormes quantités de données (ou Big Data). Elle a, par exemple, été mise en œuvre par Google pour indexer le web, par LinkedIn pour calculer ses…

Read more

Petit-déjeuner : Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle le 22 Avril

Les promesses du Big Data sont séduisantes. Encore, faut-il savoir maîtriser l’écosystème d’Hadoop, son architecture et la configuration d’un cluster adapté aux besoins métiers. Dans ce petit-déjeuner, pas de théorie uniquement des retours d’expérience de projets en France, avec OCTO et aux USA avec Cloudera.

Read more

Ambari, la supervision de cluster Hadoop

Présentation Lors du Hadoop Summit 2013, HortonWorks a présenté Ambari, un projet d’inbubation Apache destiné à la supervision et à l’administration de clusters Hadoop. Ambari se positionne en alternative à Chef, Puppet ou encore au Cloudera Manager. Le projet est aujourd’hui au stade de l’incubation, ce qui signifie que ses fonctionnalités sont encore limitées. Ambari ne se limite pas à Hadoop mais permet de gérer également les outils de l’écosystème. Les outils annoncés sont : HDFS Hadoop 1.0 uniquement, la version 2.0 devrait être supportée…

Read more
Infrastructure et opérations

Hadoop Summit 2013 à Amsterdam – CR de deux jours de conférences techniques

Présentation Le Hadoop Summit arrive en Europe, et pour sa première édition Européenne, c’est la ville d’Amsterdam qui a été choisie. Beaucoup d'acteurs importants du monde Hadoop étaient présents : LinkedIn, HP, RedHat, Yahoo, HortonWorks, Cloudera, Microsoft, … L’article qui suit est un retour sur ce qui nous avons de retenu d’un point de vue architecture et technique de ces deux jours riches en conférences.

Read more

Votre premier projet Hadoop

Avec les approches BigData, et plus précisément grâce à une plateforme Hadoop, vous allez enfin avoir la possibilité d'extraire l'information de ces dizaines de téra-octets que vous stockez dans votre infocentre. Et mieux : commencer à vous intéresser à des données moins structurées, qu'elles soient internes (des weblogs par exemple), ou externes (réseaux sociaux, partenaires), pour en apprendre encore plus sur votre business. Les technologies comme Hadoop sont un vrai changement de paradigme par rapport à ce que nous avons traditionnellement dans nos SI. Un…

Read more

Introduction à Flume NG

Flume est une solution de collecte, aggrégation et transfert de gros volumes de logs. Il a été pensé pour gérer des débits importants avec une fonctionnalité native d'écriture dans HDFS au fil de l'eau. Pour gérer ces gros volumes/débits, il se doit d'être très scalable, et donc distribué. L'outil fait partie de l'écosystème Big Data open source Hadoop. Pour vous aider à le situer, ses alternatives sont Scribe et Chukwa pour les plus connus, et également Kafka même si ce dernier répond à d'autres problématiques de par sa nature (messagerie publish/subscribe).…

Read more

Hadoop in my IT department: benchmark your cluster

The stress test is a very important step when you go live. Good stress tests help us to: ensure that the software meets its performances requirements ensure that the service will deliver a fast response time even under a heavy load get to now the scalability limits which in turn is useful to plan the next steps of the development Hadoop is not a web application, a database or a webservice. You don't stress test a Hadoop job with a heavy load. Instead, you need…

Read more

Hadoop dans ma DSI : benchmarker son cluster

Le test de performances est un élément incontournable des mises en production. De bons tests de performances permettent en effet : de s'assurer que la solution déployée répond aux attentes en termes de performances que le service rendu aux utilisateurs sera rapide sans mettre les serveurs à genoux de tester les limites de l'architecture déployée Hadoop n'est pas une application web, une base de données ou encore un webservice. Avec Hadoop, on ne teste pas les performances d'un job sous une haute charge d'utilisation. Au…

Read more