HDFS, Hadoop & co...

le 28/10/2010 par Olivier Mallassi

Le monde noSQL est riche. Hadoop est un des éléments qui le compose. "Globalement" un clone du Google Big Table et utilisant l'algorithme Map/Reduce, ce projet Apache est en fait composé de plusieurs sous-projets (HBase,Zookeeper....).

Vous me direz que depuis Google a changé son fusil d'épaule avec Big Query. Bref...

Ces articles (je l'espère complétés par d'autres) expliquent plus en détails les éléments de base concernant HDFS et Hadoop.

HDFS est un système de fichiers distribué, ie. réparti sur plusieurs machines physiques. Ce système de fichiers gère notamment le “fail-over” via la réplication des fichiers.
Hadoop. Hadoop est un moteur Map/Reduce qui fonctionne sur HDFS. Il permet d’analyser les données stockées sur HDFS. Mais Hadoop n’est pas forcément simple d’accès et deux DSL ont été développés et visent à s’abstraire de la complexité de Map/Reduce. Le premier est Pig et propose un langage de script. Le second est Hive est présente l’avantage de ressembler au langage SQL. Hive fournit également des connecteurs JDBC...