HDFS

Évènement

Hortonworks : Plus de 250 personnes formées en 2015

OCTO Academy est le premier partenaire formation Hortonworks. Nous dispensons les formations officielles avec des formateurs certifiés par l'éditeur.   Comment devenir certifié Hortonworks ?   Parmi sept formations officielles proposées par OCTO Academy, trois sont certifiantes :   En exclusivité chez OCTO : Développer des applications pour Hadoop 2.X Hortonworks avec Java (HDP Developer: Java) / 4 jours Cette formation présente les grands outils de l’écosystème Hadoop d’un point de vue technique et est orientée développement Java. Les objectifs principaux sont d’avoir une parfaite compréhension et pratique du framework d’exécution de calculs MapReduce. Les…

Lire la suite
Archi & Techno

Hadoop 2 stable release is coming and why you should care

The first beta version of Hadoop 2 has just been released. It is the 2.1.0. More interesting, the stable version is expected to follow by mid-September. Only a few bugs away from Hadoop 2! That's a good news but you might be wondering why you should care about it? After all, the most important is what this new major version can bring to your next datalab or to your production cluster, isn't it? In this article, we will cover the differences between Hadoop 1 and…

Lire la suite
Archi & techno

Hadoop 2 en version stable : quel intérêt pour vous ?

Ca y est, Hadoop 2, ou plus précisément la 2.1.0 est passée en version "bêta". Et, plus intéressant, la sortie du four de la première version estampillée "stable", la 2.2.0, est maintenant officiellement prévue aux alentours de la mi-Septembre 2013. Nous ne sommes plus qu'à quelques bugs d'Hadoop 2 ! Tout ça c'est très bien mais quel est vraiment l'intérêt de cette nouvelle version majeure pour un datalab, un cluster de production, un poc ? Dans cet article, nous allons tâcher de balayer les différences majeures à…

Lire la suite
Archi & techno

Introduction à Flume NG

Flume est une solution de collecte, aggrégation et transfert de gros volumes de logs. Il a été pensé pour gérer des débits importants avec une fonctionnalité native d'écriture dans HDFS au fil de l'eau. Pour gérer ces gros volumes/débits, il se doit d'être très scalable, et donc distribué. L'outil fait partie de l'écosystème Big Data open source Hadoop. Pour vous aider à le situer, ses alternatives sont Scribe et Chukwa pour les plus connus, et également Kafka même si ce dernier répond à d'autres problématiques de par sa nature (messagerie publish/subscribe).…

Lire la suite
Archi & techno

Scribe, Chukwa…des collecteurs permettant d’alimenter le HDFS

HDFS, que nous avons déjà évoqué, reste un système de fichier distribué et il faut donc l'alimenter. Il y existe plusieurs options : à la manière batch. La première option est donc de continuer à collecter les données sur un système de fichier local et de les importer sur le HDFS par vacation. La seconde option serait d'utiliser un ETL. Pentaho a annoncé le support de Hadoop pour sa solution Data Integration Product. Les premiers tests que l'on a réalisé nous montre que cela fonctionne…

Lire la suite
Archi & Techno

Scribe : a way to aggregate data and why not, to directly fill the HDFS?

HDFS is a distributed file system and quickly raise an issue : how to fill this file system with all my data? There are several options that go from batch import to Straight Through Processing. Bulk load style. The first one is to keep collecting data on local file system and importing them by vacation. The second one is to use an ETL. Pentaho has announced support of Hadoop for Data Integration product. The first tests we conducted lead us to think this works much…

Lire la suite
Archi & Techno

Scribe installation

Scribe installation is a little bit tricky (I need to precise I am not what we can call a C++ compilation expert and thanks to David for his help...). Here is so how I installed Scribe on my Ubuntu (Ubuntu 10.04 LTS - the Lucid Lynx - released in April 2010)

Lire la suite
Archi & techno

Utiliser Hadoop pour le calcul de la Value At Risk Partie 6

Dans le premier article de cette série, j'ai introduit pourquoi le framework Hadoop peut être utile pour calculer la VAR et analyser les données intermédiaires. Dans le second, troisième et quatrième article j'ai détaillé deux implémentations concrètes du calcul de la VAR avec Hadoop. Ensuite dans le cinquième article, j'ai étudié comment analyser les résultats intermédiaires avec Hive. Je vais enfin vous donner quelques chiffres de performances sur Hadoop et les comparer à ceux sur GridGain. Grâce à ces chiffres, je détaillerai certains points capitaux…

Lire la suite
Archi & Techno

Using Hadoop for Value At Risk calculation Part 6

In the first part, I described the potential interest of using Hadoop for Value At Risk calculation in order to analyze intermediate results. In the three (2,3, 4) next parts I have detailled how to implement the VAR calculation with Hadoop. Then in the fifth part, I have studied how to analyse the intermediate results with Hive. I will finally give you now some performance figures on Hadoop and compare them with GridGain ones. According to those figures, I will detail some performance key points…

Lire la suite
Archi & Techno

Using Hadoop for Value At Risk calculation Part 5

In the first part of this series, I have introduced why Hadoop framework could be useful to compute the VAR and analyze intermediate values. In the second part and third part and fourth part I have given two concrete implementations of VAR calculation with Hadoop with optimizations. Another interest of using Hadoop for Value At Risk calculation is the ability to analyse the intermediate values inside Hadoop through Hive. This is the goal of this (smaller) part of this series.

Lire la suite