Big Data

Big Data

MythBuster: Apache Spark • Épisode 2: Planification et exécution d’une requête SQL

Nous poursuivons aujourd'hui notre série d'articles dédiée à la démystification de Spark et plus particulièrement au moteur d'exécution Tungsten. Pour rappel, dans l'épisode précédent, nous sommes partis d'une requête SQL sous forme de String que nous avons d'abord découpée en une instance de Seq[Token] grâce à notre classe Lexer, puis en une instance d'AST grâce à notre classe Parser. L'arbre formé par l'AST obtenu en sortie permet d'avoir une structure avec laquelle il est relativement simple d'intéragir au travers de notre code. Dans cet épisode,…

Lire la suite
Big Data

Visualiser de volumineux flux de données: un problème de transports publics

Les entreprises de transports publics mettent chaque jour à disposition de plus en plus de données. Certaines ont franchi le pas et ouvrent leurs systèmes d’information et exposent même des flux de données en temps réels, comme par exemple les CFF en Suisse, la RATP à Paris ou les TPG à Genève). Des horizons s’ouvrent pour de nouvelles  expériences! Ces entreprises publient aussi les horaires de tous leurs trajets. En Suisse, l’Union des Transports Publics donne ainsi accès aux horaires des trains, bus, tramways, bateaux…

Lire la suite
Big Data

Les transitions D3.js m’ont tuer (mon CPU)! Une comparaison entre d3.js & pixi.js

D3.js est certainement la libraire JavaScript  de visualisation la plus complète du moment: les possibilités pour transformer vos données en data viz époustouflantes ne sont en fait que limitées par votre imagination. Et une des clés du succès de D3 réside dans la facilité avec laquelle on peut animer des graphiques grâce aux puissantes selection transitions. Hélas!  Ces animations se payent comptant et mettent rapidement votre processeur à genou. D'où cet article. Si le problème était tapis dans les méandres de plusieurs projets, il est apparu au grand…

Lire la suite
Big Data

IoT et Big Data au programme du dernier AWS Summit

A l’occasion de l’AWS Summit qui s’est déroulé le 27 octobre à Paris, OCTO sortait officiellement la version papier de son livre blanc Cloud Ready Apps. C’était l’occasion d’assister à quelques conférences, parmi lesquelles Créez votre première application Big Data sur AWS et Construisez votre projet IoT avec une architecture Serverless. Voici notre compte-rendu pour chacune d’elles.

Lire la suite
Big Data

Classification d’images : les réseaux de neurones convolutifs en toute simplicité

Vous souhaitez créer une IA capable de classifier des images ? Qu’elle reconnaisse Pikachu sur Pokemon Go ? Qu’elle automatise des opérations répétitives comme le tri de légumes ? Voire qu’elle réalise des tâches expertes comme un diagnostic de la rétinopathie diabétique ?  Les réseaux de neurones convolutifs sont l’outil de choix dans la besace du Data Scientist pour ce type de problèmes. Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches… dont la richesse peut impressionner. Il est pourtant possible de créer…

Lire la suite
Big Data

Industrialiser le développement et déploiement de plugins Kibana (avec Docker)

par Alexandre Masselot (OCTO Technology Switzerland), Catherine Zwahlen (OCTO Technology Switzerland) et Jonathan Gianfreda. La possibilité de personnaliser des plugins est une promesse forte de Kibana. Nous proposons un article sur comment écrire de tels plugins de A à Z. Mais ce chemin comprend plus que l'écriture per se d'un plugin: il nous faudra aussi aborder des points comme: "comment mettre in place le déploiement continu?", "comment mettre en place un environnement avec des données initiales?" Ces questions nous embarquent dans la construction d'une infrastructure de développement et…

Lire la suite
Big Data

Retours de Strata + Hadoop World 2016 – Partie 2

Bienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming...), rendez-vous sur la première partie de cet article. Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée…

Lire la suite