Hadoop Summit 2014 : un compte-rendu (partie 1/3)

La deuxième édition du Hadoop Summit s’est déroulée à Amsterdam il y a presque 1 mois. Elle a eu lieu dans un contexte florissant pour Hadoop : la version 5 de la plateforme (CDH) est sortie pendant l’événement, tandis que la version HDP 2.1, d’Hortonworks, devrait officiellement voir le jour à la fin du mois d’avril. OCTO était bien sûr présent, en tant que cabinet fortement positionné sur Big Data et Hadoop, et en tant que partenaire de l’éditeur Hortonworks qui co-organisait l’événement avec Yahoo!.

Nous étions là aussi l’année dernière, pour la première édition, ce qui nous permet de mener une comparaison entre les millésimes. Et de fait, beaucoup de choses ont changé, et pas seulement l’affluence (c’était complet).

D’abord, l’année dernière nous avait surpris par son discours très centré sur l’offre d’Hortonworks. On parlait entre nous du “Hortonworks Summit”. Rien de tel cette année : hormis quelques keynotes l’accent était bien plus mis sur la communauté. D’autres éditeurs, tels Cloudera et MapR, étaient sponsors platinum et présentaient des sessions comme n’importe quel autre acteur. Une bonne surprise, donc, quoique logique puisque en cohérence avec la stratégie affichée d’Hortonworks de contribuer à la communauté. Dans l’ensemble les sessions mélangeaient des éditeurs, des utilisateurs Hadoop (finaux ou gros contributeurs), des partenaires technologiques, en proportion harmonieuse.

Deuxième impression, celle de la maturité grandissante d’Hadoop. La plateforme n’est pas encore adulte, disons qu’elle est en train de terminer son adolescence. Des concepts encore théoriques l’année dernière, comme le data lake ou le multi-tenant, sont maintenant à portée de main grâce aux releases basées sur Hadoop 2 et YARN. Les retours d’expérience s’empilent, et les architectures de référence émergent. Et surtout, cela commence à être bien outillé ! C’est ce qu’on observe aussi chez OCTO, sur le marché français : les POC commencés l’année dernière rentrent en phase d’industrialisation.

Enfin (mais ça ce n’est pas un changement), on est bien traités :-) Que ce soit le lieu de l’événement, les repas ou la petite soirée de mi-salon, tout est au top !

Voilà pour ces impressions très générales. Place maintenant à un compte-rendu des sessions qui nous ont le plus marqués. Nous sommes loin d’avoir tout vu, avec 5 tracks en parallèle c’était bien sûr impossible. Heureusement, les slides (et quelques vidéos) devraient rapidement être publiés par les organisateurs.

Nous vous proposons un découpage en 3 articles, pour faciliter la lecture :

  1. l’introduction ci-dessus et la roadmap Hadoop, dans le présent article
  2. les retours d’expérience et l’exploitation en multi-tenant
  3. les algorithmes et le machine learning appliqués

Si vous n’avez le temps que de lire 2 articles, choisissez les deux premiers (celui-ci et le suivant).

Recent innovations in the Apache Hadoop ecosystem

(Arun Murthy, Hortonworks)

Cette session fait un état des lieux des nouveautés apportées par les dernières versions d’Hadoop 2, qui vont progressivement faire leur chemin dans les distributions.

Au niveau du coeur d’Hadoop, on retiendra :

  • la capacité de YARN de gérer uniformément les ressources sous workloads mixtes (transactionnels, analytiques, streaming)
  • la haute disponibilité de toute la plateforme
  • le maintien en conditions opérationnelles (disaster recovery, apporté par Apache Falcon)
  • les snapshots HDFS
  • les mises à jour progressives (rolling upgrades) du cluster

Du côté de l’écosystème logiciel, ce sont soit des améliorations apportées à l’existant, soit l’intégration d’outils tiers dans le cadre maintenant généraliste apporté par YARN. La liste que l’on trouvera ci-dessous est en fait la roadmap Hadoop d’Hortonworks pour 2014, et elle est à prendre comme telle :

  • l’initiative Stinger, visant à offrir des temps de réponse proche de l’interactif sous Hive -- Stinger achèvera sa phase 3 avec la HDP 2.1. Notons que Microsoft est un contributeur important de cette initiative, avec l’arrivée d’un optimiseur Hive basé sur les coûts (l’expérience de SQL Server s’est avérée essentielle)
  • le projet Apache Tez, successeur de MapReduce (et contribuant aux améliorations de Stinger)
  • le projet Apache Falcon, pour la gestion du cycle de vie de la donnée en général (réplication, lineage, purges, …)
  • le projet Apache Knox, gateway de sécurisation unifiée du cluster (aspect important en contexte multi-tenant)
  • l’intégration de Storm (fast data), de Spark et de Solr (indexation du contenu du cluster)
  • et enfin les extensions d’Ambari, couvrant les distributions mixtes apportées par les partenariats technologiques d’Hortonworks : Teradata, Microsoft, OpenStack. Concernant OpenStack, il s’agit à ce stade d’une annonce car les travaux d’intégration sont encore embryonnaires

Les projets Falcon et Knox en sont à leurs premières versions, ils devront bien sûr faire leurs preuves et continuer de s’enrichir au gré des releases.

L’intégration de Solr est une surprise car on attendait plutôt ElasticSearch, conformément au partenariat annoncé il y a quelques semaines. En fait l’intégration complète d’ElasticSearch est reportée sine die, pour des raisons de stratégie commerciale divergente entre les deux partenaires. Le connecteur existant reste utilisable, mais sans support de la part d’Hortonworks. Il permet de déployer des shards ES sur des data nodes Hadoop, profitant ainsi de la colocalisation pour faire du MapReduce, du Hive, du Pig, ...

Quelques annonces ont été faites pour une vision à plus long terme. Retenons en particulier la prise en compte du stockage hétérogène (disque mécanique, SSD, …, information utilisée par le gestionnaire de ressources), et le projet Slider visant à exécuter sur YARN des services de longue durée (comme HBase, ainsi que le prévoyait le projet HOYA dont Slider est une généralisation à d’autres services).

Bref, 2014 sera riche et verra les distributions Apache et HDP se rapprocher de ses concurrents, en termes de fonctionnalités “entreprise” comme le DRP ou la gouvernance de la donnée.