Petit-déjeuner : Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle le 22 Avril

03---format-BLOG

Les promesses du Big Data sont séduisantes. Encore, faut-il savoir maîtriser l’écosystème d’Hadoop, son architecture et la configuration d’un cluster adapté aux besoins métiers. Dans ce petit-déjeuner, pas de théorie uniquement des retours d’expérience de projets en France, avec OCTO et aux USA avec Cloudera.

(Lire la suite…)

Ambari, la supervision de cluster Hadoop

Présentation

Lors du Hadoop Summit 2013, HortonWorks a présenté Ambari, un projet d’inbubation Apache destiné à la supervision et à l’administration de clusters Hadoop.

Ambari se positionne en alternative à Chef, Puppet ou encore au Cloudera Manager.

Le projet est aujourd’hui au stade de l’incubation, ce qui signifie que ses fonctionnalités sont encore limitées.

Ambari ne se limite pas à Hadoop mais permet de gérer également les outils de l’écosystème. Les outils annoncés sont :

  • HDFS

  • Hadoop 1.0 uniquement, la version 2.0 devrait être supportée courant Juin

  • MapReduce

  • Hive, HCatalog

  • Oozie

  • HBase

  • Ganglia, Nagios

  • Tous les outils de la distribution d’HortonWorks

Bien qu’Hadoop 1.0 soit supporté, Ambari ne supporte pas les distributions dont l’installation ne repose pas sur Apache BigTop.

Enfin, l’une des particularités d’Ambari par rapport à ses concurrents est qu’il est orienté API et extensbilité.

En effet, il est possible d’intéragir avec Ambari au travers de son API REST et le projet est conçu de sorte qu’il soit possible d’ajouter facilement des modules pour gérer des produits tiers.

(Lire la suite…)

Hadoop Summit 2013 à Amsterdam – CR de deux jours de conférences techniques

Présentation

Le Hadoop Summit arrive en Europe, et pour sa première édition Européenne, c’est la ville d’Amsterdam qui a été choisie.

Beaucoup d’acteurs importants du monde Hadoop étaient présents : LinkedIn, HP, RedHat, Yahoo, HortonWorks, Cloudera, Microsoft, …

L’article qui suit est un retour sur ce qui nous avons de retenu d’un point de vue architecture et technique de ces deux jours riches en conférences.

(Lire la suite…)

Finovate Europe 2013 : tendances décryptées des innovations dans les services financiers (2/2)

Cet article termine la série de deux articles dédiés aux innovations dans les services financiers présentées lors du salon Finovate Europe 2013 à Londres, les 12 et 13 février.
Dans notre premier article, nous vous avions présenté un focus sur 2 des 3 principales tendances de fond que nous avons identifiées :

  1. La gestion financière des objectifs de vie – comme une priorité pour se recentrer sur le client
  2. L’optimisation financière des dépenses et investissements, de pair avec un meilleur conseil financier

Dans ce dernier article, nous présenterons la 3ème tendance :

  1. L’utilisabilité et la fluidité : une plus grande facilité à utiliser les services financiers

Et a celle-ci nous rajouterons en conclusion un cocorico et quelques tendances émergentes (ou modes passagères ?) :

  • Les premières exemples d’applications Big Data présentées à Finovate Europe,
  • Les Look & Feel et composants IHM récurrents lors des sessions

(Lire la suite…)

Construisez votre offre de service décisionnelle

En 2001, en travaillant dans un BICC (BI Competence Center), j’entamais une réflexion avec mon client sur la définition de l’offre de service que devait porter le BICC vis-à-vis des différents métiers demandeurs de solution décisionnelle. Ce travail nous avait alors permis, sur la base de l’identification et la classification des grands besoins de nos utilisateurs, de proposer une matrice de décision aiguillant les projets vers la solution la plus adéquate (2 architectures et 3 solutions logicielles différentes à l’époque). C’était intéressant et innovant à l’époque même si le champ des possibles était encore assez restreint. (Lire la suite…)

Introduction à Flume NG

Flume est une solution de collecte, aggrégation et transfert de gros volumes de logs. Il a été pensé pour gérer des débits importants avec une fonctionnalité native d’écriture dans HDFS au fil de l’eau. Pour gérer ces gros volumes/débits, il se doit d’être très scalable, et donc distribué. L’outil fait partie de l’écosystème Big Data open source Hadoop. Pour vous aider à le situer, ses alternatives sont Scribe et Chukwa pour les plus connus, et également Kafka même si ce dernier répond à d’autres problématiques de par sa nature (messagerie publish/subscribe).

Flume a récemment subit un lifting profond. Il aura fallu 1 an pour refondre son architecture depuis Août 2011 et réécrire certains de ses composants coeurs. Aujourd’hui, 6 mois après la première release stable, Flume NG (version 1.x) est fiable, performant, définitivement prêt pour la production. Bref il est temps de s’y pencher sérieusement. Je vous propose donc de brosser un tableau de la solution à travers ce billet, en regardant de près ses forces, mais aussi ses faiblesses…

(Lire la suite…)

Microsoft Techdays 2013

Nous avons participé à différentes conférences aux Techdays 2013 de Microsoft. Voici ce que nous avons retenu :

Développer pour tous les navigateurs

La conférence était très ludique et pertinente, basée sur un retour d’expérience de plusieurs années.

Il est très difficile de gérer tous les navigateurs car les entreprises sont frileuses aux changements. Par exemple, des contrats « entreprises » existe pour Firefox ou Safari pour maintenir une version spécifique pendant un an. Avec des mises à jours toutes les six semaines, une version vielle d’un an est très éloignées de la dernière version publiée.
Les navigateurs partageant la même souche Webkit ne sont pas tous au même niveau et ne propose pas toujours les mêmes composants. Par exemple, SVG n’est pas disponible sous Android 2.x car cela représente 1Mo supplémentaire.
Les CSS préfixés ne sont pas pérenne.
(Lire la suite…)

Etat de l’art : Business Intelligence en 2013

Big data, dataviz, NoSQL, virtualisation de données, agile, appliance, selfservice BI… Finalement, cela en fait des buzzword associés à la Business Intelligence et à nos architectures décisionnelles !

Il est facile de comprendre la difficulté à se positionner dans ces environnements en tant que responsable du décisionnel dans une entreprise. (Lire la suite…)

Hadoop dans ma DSI : comment dimensionner un cluster ?

Ca y est, vous avez décidé de mettre en place un cluster Hadoop.

Prochaine étape, le dimensionnement… Hadoop étant une solution complexe, plusieurs questions se posent :

  • HDFS gère des réplicas, Map Reduce génère des fichiers, comment faire pour prévoir mon stockage ?
  • Comment prévoir mes besoins en CPU ?
  • Comment prévoir mes besoins en mémoire ? Faut il faire une distinction sur certaines parties du cluster ?
  • On m’a dit que Map Reduce déplace le code proche des fichiers… Concrètement, qu’est ce que cela implique pour prévoir mes besoins réseau ?
  • Dans quelle mesure les cas d’usages métier entre en compte dans le dimensionnement ?

C’est ce que nous allons tenter d’éclaircir dans cet article en fournissant des explications sur ces différents points ainsi que des moyens pour calculer vos besoins.

(Lire la suite…)

Deux jours à Strata Conf London 2012

La semaine dernière avait lieu à Londres Strata conf : deux jours réunissant les spécialistes sur le sujet des Big Data. L’évènement avait lieu pour la première fois en Europe. Ces deux jours ont montré à la fois l’intérêt business de Big Data et l’existence d’outils désormais packagés. En substance Big Data c’est d’abord l’opportunité de croiser les données opérationnelles avec l’immense flot de données du web, des devices mobiles ou autres pour apporter plus de valeur à l’entreprise. Mais c’est aussi de multiples offres d’outil autour de l’offre Open Source Hadoop pour traiter ces données.
(Lire la suite…)