
Cet article explore certains aspects clefs du lineage de données au niveau du data set, en indiquant comment il est possible de hacker le moteur Spark pour y parvenir.
Lire la suiteCet article explore certains aspects clefs du lineage de données au niveau du data set, en indiquant comment il est possible de hacker le moteur Spark pour y parvenir.
Lire la suite A la fin de l’épisode précédent, nous étions capables d’exécuter une requête SQL à partir d’un plan d'exécution optimisé. Ce fut notamment l’occasion de plonger au coeur du moteur d’optimisation Catalyst. Nous allons à présent nous intéresser à une optimisation issue du moteur Tungsten, embarquée dans Spark dès la version 2.0, qui remet en cause ce Volcano Model, pourtant standard sur la plupart des SGBDR…
Lire la suiteLes 25 et 26 Octobre derniers, nous nous sommes rendus à Dublin afin d’assister au Spark Summit, grand-messe incontournable du Big Data organisée chaque année en Europe et aux États-Unis par Databricks (la société fondée par les créateurs d’Apache Spark). De très nombreux intervenants de tous horizons (industriels, académiques, éditeurs, contributeurs, etc.) étaient au rendez-vous. Au total : plus de 1200 participants, deux journées de conférences, plus d’une centaine de talks (créneaux de 30 minutes) et jusqu’à six présentations en parallèle. Au bout du compte,…
Lire la suiteNous poursuivons aujourd'hui notre série d'articles dédiée à la démystification de Spark et plus particulièrement au moteur d'exécution Tungsten. Pour rappel, dans l'épisode précédent, nous sommes partis d'une requête SQL sous forme de String que nous avons d'abord découpée en une instance de Seq[Token] grâce à notre classe Lexer, puis en une instance d'AST grâce à notre classe Parser. L'arbre formé par l'AST obtenu en sortie permet d'avoir une structure avec laquelle il est relativement simple d'intéragir au travers de notre code. Dans cet épisode,…
Lire la suiteSpark est en évolution constante et maintient un rythme soutenu de sorties de releases, en témoigne la dernière version en date, la 2.2. Dans cette série d'articles, nous allons revenir ensemble sur différentes mécaniques actuellement en place au sein de cet outil et essayer d'en comprendre le fonctionnement.
Lire la suiteLes entreprises de transports publics mettent chaque jour à disposition de plus en plus de données. Certaines ont franchi le pas et ouvrent leurs systèmes d’information et exposent même des flux de données en temps réels, comme par exemple les CFF en Suisse, la RATP à Paris ou les TPG à Genève). Des horizons s’ouvrent pour de nouvelles expériences! Ces entreprises publient aussi les horaires de tous leurs trajets. En Suisse, l’Union des Transports Publics donne ainsi accès aux horaires des trains, bus, tramways, bateaux…
Lire la suiteD3.js est certainement la libraire JavaScript de visualisation la plus complète du moment: les possibilités pour transformer vos données en data viz époustouflantes ne sont en fait que limitées par votre imagination. Et une des clés du succès de D3 réside dans la facilité avec laquelle on peut animer des graphiques grâce aux puissantes selection transitions. Hélas! Ces animations se payent comptant et mettent rapidement votre processeur à genou. D'où cet article. Si le problème était tapis dans les méandres de plusieurs projets, il est apparu au grand…
Lire la suiteLe 26 et 27 Octobre, nous nous sommes rendus à Bruxelles afin d'assister au Spark Summit, la conférence de référence sur Apache Spark. Durant ces journées de talks et keynotes, deux sujets de fond ont été régulièrement abordés : les nouveautés de la release de Spark 2.0 et comment assurer le suivi de Spark en production.
Lire la suiteA l’occasion de l’AWS Summit qui s’est déroulé le 27 octobre à Paris, OCTO sortait officiellement la version papier de son livre blanc Cloud Ready Apps. C’était l’occasion d’assister à quelques conférences, parmi lesquelles Créez votre première application Big Data sur AWS et Construisez votre projet IoT avec une architecture Serverless. Voici notre compte-rendu pour chacune d’elles.
Lire la suite