Map Reduce

Data

Sortie de notre livre blanc : Hadoop, feuille de route

À mettre dans les mains de tous les experts ! Préface de Doug Cutting, le créateur d’Hadoop. Hadoop, feuille de route est le dernier livre blanc né de l'expertise des consultants OCTO acquise en projets chez nos clients ainsi que l'aboutissement de 5 ans de veille active sur cette plateforme Open Source, son écosytème et les enjeux architecturaux qui en découlent.

Lire la suite
Archi & techno

Améliorer la performance des jobs Hadoop sur HDInsight

Cela fait quelque temps que j’expérimente des Tips & Tricks sur mes algos pour traiter de la data de façon performante et comme ça a été plutôt concluant dans mon cas, j’ai mis tout ça au propre pour les partager ici avec vous. Les quatre optimisations que je présente ici vont faire passer le temps d’exécution de 45 minutes à moins de 3 minutes. La plus importante étant le passage d’un script Pig à un code MapReduce.

Lire la suite
Archi & techno

Apprentissage distribué avec Spark

// Les solutions big data actuelles se concentrent essentiellement sur l'aspect ETL des traitements. Le modèle MapReduce nous permet d'implémenter facilement des extractions d'informations mais de nombreuses contraintes et limitations apparaissent lors de la conception d'algorithmes de data science.  Par exemple, les algorithmes itératifs couramment utilisés en machine learning sont difficilement intégrables dans les modèles MapReduce:  le haut-niveau d'intéraction des données impose une gestion et une synchronisation complexe à différentes phases de l'analyse. Dans cet article nous nous intéressons à un use case typique en machine learning: la conception d'un modèle…

Lire la suite
Archi & techno

Une pincée de CQRS avec RavenDB

Dans de précédents articles, nous avons abordé ce qu'est CQRS et quels avantages nous pouvions tirer de la séparation entre l'écriture et la lecture dans une application. Il n'est cependant pas nécessaire d'avoir une architecture complexe pour en bénéficier : on peut parfaitement commencer par baser ses interfaces de consultation sur des facilités offertes par son système de persistance. Par exemple, on utilisera les vues proposées par les SGBD relationnels pour simplifier au maximum le mapping entre la base de données et les objets à afficher. Certaines bases…

Lire la suite
Archi & techno

GemFire et traitement distribué

Les enjeux autour de la donnée sont en train de changer par rapport à ce que l’on connait depuis les SGBDR : volume de plus en plus important, nombre d’utilisateur croissant, accès concurrents et transactionnels intensifs à la fois en lecture et en écriture, haute disponibilité à des niveaux coûts acceptables, coût de licence. Dans un tel contexte, les bases de données traditionnelles peuvent  montrer leurs limites.

Lire la suite