
HDFS, que nous avons déjà évoqué, reste un système de fichier distribué et il faut donc l'alimenter. Il y existe plusieurs options : à la manière batch. La première option est donc de continuer à collecter les données sur un système de fichier local et de les importer sur le HDFS par vacation. La seconde option serait d'utiliser un ETL. Pentaho a annoncé le support de Hadoop pour sa solution Data Integration Product. Les premiers tests que l'on a réalisé nous montre que cela fonctionne…
Lire la suite