HDFS, Hadoop & co...

le 28/10/2010 par Olivier Mallassi
Tags: Software Engineering

Le monde noSQL est riche. Hadoop est un des éléments qui le compose. "Globalement" un clone du Google Big Table et utilisant l'algorithme Map/Reduce, ce projet Apache est en fait composé de plusieurs sous-projets (HBase,Zookeeper....).

Vous me direz que depuis Google a changé son fusil d'épaule avec Big Query. Bref...

Ces articles (je l'espère complétés par d'autres) expliquent plus en détails les éléments de base concernant HDFS et Hadoop.

  • HDFS est un système de fichiers distribué, ie. réparti sur plusieurs machines physiques. Ce système de fichiers gère notamment le “fail-over” via la réplication des fichiers.
  • Hadoop. Hadoop est un moteur Map/Reduce qui fonctionne sur HDFS. Il permet d’analyser les données stockées sur HDFS. Mais Hadoop n’est pas forcément simple d’accès et deux DSL ont été développés et visent à s’abstraire de la complexité de Map/Reduce. Le premier est Pig et propose un langage de script. Le second est Hive est présente l’avantage de ressembler au langage SQL. Hive fournit également des connecteurs JDBC...