Hadoop

Archi & Techno

Hadoop in my IT department: How to plan a cluster?

Ok, you have decided to setup a Hadoop cluster for your business. Next step now, planning the cluster… But Hadoop is a complex stack and you might have many questions: HDFS deals with replication and Map Reduce create files… How can I plan my storage needs? How to plan my CPU needs? How to plan my memory needs? Should I consider different needs on some nodes of the cluster? I heard that Map Reduce moves its job code where the data to process is located……

Read more
Archi & Techno

Hadoop dans ma DSI : comment dimensionner un cluster ?

Ca y est, vous avez décidé de mettre en place un cluster Hadoop. Prochaine étape, le dimensionnement... Hadoop étant une solution complexe, plusieurs questions se posent : HDFS gère des réplicas, Map Reduce génère des fichiers, comment faire pour prévoir mon stockage ? Comment prévoir mes besoins en CPU ? Comment prévoir mes besoins en mémoire ? Faut il faire une distinction sur certaines parties du cluster ? On m'a dit que Map Reduce déplace le code proche des fichiers... Concrètement, qu'est ce que cela…

Read more
Archi & Techno

Quoi de neuf dans Hadoop 2.0 ?

Introduction Cloudera a sorti une nouvelle version de sa distribution, la CDH4 qui intègre Hadoop 2.0.0. Cette version apporte de grosses nouveautés, la plus emblématique étant YARN (Yet Another Resource Negociator) que l'on nomme parfois MRv2 (Map Reduce 2) bien ces deux dénominations ne soit pas synonymes comme nous allons le voir par la suite. Les bases sont là mais il est à noter que certains éléments présentés ci dessous sont encore en cours d'implémentation dans Hadoop 2. Malgré tout, il nous semble intéressant de nous…

Read more
Consulting Chronicles

Introduction to Datastax Brisk : an Hadoop and Cassandra distribution

As the Apache Hadoop ecosystem grows while its core matures, there are now several companies providing business-class Hadoop distribution and services. While EMC, after it acquires Greenplum, seem the biggest player other companies such as Cloudera or MapR are also competing. This article introduces Datastax Brisk, an innovative Hadoop distribution that leverage Apache Hive data warehouse infrastructure on top of an HDFS-compatible storage layer, based on Cassandra. Brisk try to reconcile real-time applications with low-latency requirement (OLTP) and big data analytics (OLAP) in one system.…

Read more
Archi & Techno

Scribe, Chukwa…des collecteurs permettant d’alimenter le HDFS

HDFS, que nous avons déjà évoqué, reste un système de fichier distribué et il faut donc l'alimenter. Il y existe plusieurs options : à la manière batch. La première option est donc de continuer à collecter les données sur un système de fichier local et de les importer sur le HDFS par vacation. La seconde option serait d'utiliser un ETL. Pentaho a annoncé le support de Hadoop pour sa solution Data Integration Product. Les premiers tests que l'on a réalisé nous montre que cela fonctionne…

Read more
Archi & Techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 6

Dans le premier article de cette série, j'ai introduit pourquoi le framework Hadoop peut être utile pour calculer la VAR et analyser les données intermédiaires. Dans le second, troisième et quatrième article j'ai détaillé deux implémentations concrètes du calcul de la VAR avec Hadoop. Ensuite dans le cinquième article, j'ai étudié comment analyser les résultats intermédiaires avec Hive. Je vais enfin vous donner quelques chiffres de performances sur Hadoop et les comparer à ceux sur GridGain. Grâce à ces chiffres, je détaillerai certains points capitaux…

Read more
Archi & Techno

Using Hadoop for Value At Risk calculation Part 6

In the first part, I described the potential interest of using Hadoop for Value At Risk calculation in order to analyze intermediate results. In the three (2,3, 4) next parts I have detailled how to implement the VAR calculation with Hadoop. Then in the fifth part, I have studied how to analyse the intermediate results with Hive. I will finally give you now some performance figures on Hadoop and compare them with GridGain ones. According to those figures, I will detail some performance key points…

Read more
Archi & Techno

Using Hadoop for Value At Risk calculation Part 5

In the first part of this series, I have introduced why Hadoop framework could be useful to compute the VAR and analyze intermediate values. In the second part and third part and fourth part I have given two concrete implementations of VAR calculation with Hadoop with optimizations. Another interest of using Hadoop for Value At Risk calculation is the ability to analyse the intermediate values inside Hadoop through Hive. This is the goal of this (smaller) part of this series.

Read more
Archi & Techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 5

Dans le premier article de cette série, j'ai introduit pourquoi le framework Hadoop peut être utile pour calculer la VAR et analyser les données intermédiaires. Dans les second, troisième et quatrième articles j'ai donné deux implémentations concrètes du calcul de la VAR avec Hadoop ainsi que des détails d'optimisation. Un autre intérêt d'utiliser Hadoop pour le calcul de la Value At Risk est la possibilité d'analyser les valeurs intermédiaires au sein d'Hadoop avec Hive. C'est l'objet de ce (petit) article au sein de cette série.

Read more