Big Data

Big Data

MythBuster: Apache Spark • Épisode 3: Génération de code à la volée

 A la fin de l’épisode précédent, nous étions capables d’exécuter une requête SQL à partir d’un plan d'exécution optimisé. Ce fut notamment l’occasion de plonger au coeur du moteur d’optimisation Catalyst. Nous allons à présent nous intéresser à une optimisation issue du moteur Tungsten, embarquée dans Spark dès la version 2.0, qui remet en cause ce Volcano Model, pourtant standard sur la plupart des SGBDR…

Lire la suite
Big Data

Compte rendu du Spark Summit 2017 (Dublin)

Les 25 et 26 Octobre derniers, nous nous sommes rendus à Dublin afin d’assister au Spark Summit, grand-messe incontournable du Big Data organisée chaque année en Europe et aux États-Unis par Databricks (la société fondée par les créateurs d’Apache Spark). De très nombreux intervenants de tous horizons (industriels, académiques, éditeurs, contributeurs, etc.) étaient au rendez-vous. Au total : plus de 1200 participants, deux journées de conférences, plus d’une centaine de talks (créneaux de 30 minutes) et jusqu’à six présentations en parallèle. Au bout du compte,…

Lire la suite
Big Data

MythBuster: Apache Spark • Épisode 2: Planification et exécution d’une requête SQL

Nous poursuivons aujourd'hui notre série d'articles dédiée à la démystification de Spark et plus particulièrement au moteur d'exécution Tungsten. Pour rappel, dans l'épisode précédent, nous sommes partis d'une requête SQL sous forme de String que nous avons d'abord découpée en une instance de Seq[Token] grâce à notre classe Lexer, puis en une instance d'AST grâce à notre classe Parser. L'arbre formé par l'AST obtenu en sortie permet d'avoir une structure avec laquelle il est relativement simple d'intéragir au travers de notre code. Dans cet épisode,…

Lire la suite
Big Data

Visualiser de volumineux flux de données: un problème de transports publics

Les entreprises de transports publics mettent chaque jour à disposition de plus en plus de données. Certaines ont franchi le pas et ouvrent leurs systèmes d’information et exposent même des flux de données en temps réels, comme par exemple les CFF en Suisse, la RATP à Paris ou les TPG à Genève). Des horizons s’ouvrent pour de nouvelles  expériences! Ces entreprises publient aussi les horaires de tous leurs trajets. En Suisse, l’Union des Transports Publics donne ainsi accès aux horaires des trains, bus, tramways, bateaux…

Lire la suite
Big Data

Les transitions D3.js m’ont tuer (mon CPU)! Une comparaison entre d3.js & pixi.js

D3.js est certainement la libraire JavaScript  de visualisation la plus complète du moment: les possibilités pour transformer vos données en data viz époustouflantes ne sont en fait que limitées par votre imagination. Et une des clés du succès de D3 réside dans la facilité avec laquelle on peut animer des graphiques grâce aux puissantes selection transitions. Hélas!  Ces animations se payent comptant et mettent rapidement votre processeur à genou. D'où cet article. Si le problème était tapis dans les méandres de plusieurs projets, il est apparu au grand…

Lire la suite
Big Data

IoT et Big Data au programme du dernier AWS Summit

A l’occasion de l’AWS Summit qui s’est déroulé le 27 octobre à Paris, OCTO sortait officiellement la version papier de son livre blanc Cloud Ready Apps. C’était l’occasion d’assister à quelques conférences, parmi lesquelles Créez votre première application Big Data sur AWS et Construisez votre projet IoT avec une architecture Serverless. Voici notre compte-rendu pour chacune d’elles.

Lire la suite
Big Data

Classification d’images : les réseaux de neurones convolutifs en toute simplicité

Vous souhaitez créer une IA capable de classifier des images ? Qu’elle reconnaisse Pikachu sur Pokemon Go ? Qu’elle automatise des opérations répétitives comme le tri de légumes ? Voire qu’elle réalise des tâches expertes comme un diagnostic de la rétinopathie diabétique ?  Les réseaux de neurones convolutifs sont l’outil de choix dans la besace du Data Scientist pour ce type de problèmes. Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches… dont la richesse peut impressionner. Il est pourtant possible de créer…

Lire la suite