Big Data

Big Data

Les transitions D3.js m’ont tuer (mon CPU)! Une comparaison entre d3.js & pixi.js

www.octo.chD3.js est certainement la libraire JavaScript  de visualisation la plus complète du moment: les possibilités pour transformer vos données en data viz époustouflantes ne sont en fait que limitées par votre imagination. Et une des clés du succès de D3 réside dans la facilité avec laquelle on peut animer des graphiques grâce aux puissantes selection transitions. Hélas!  Ces animations se payent comptant et mettent rapidement votre processeur à genou. D’où cet article.

Si le problème était tapis dans les méandres de plusieurs projets, il est apparu au grand jour lors de tentatives d’affichage des transports public suisses en temps réel sur une carte. L’outil, basé sur du SVG et D3, proposait des perspectives intéressantes mais la réalisation souffrait d’à-coups et les batteries des laptops disparaissaient à grande vitesse. Une vidéo d’un premier projet est disponible et peut être comparée à une deuxième réalisation, basée sur des techniques présentées dans cet article. Pour rendre le problème encore plus universel, nous nous sommes rendus compte que le simple affichage d’une horloge, basée sur une transition/rotation, pouvait consommer jusqu’à 20% du CPU d’un laptop moderne!

Si D3 n’a aucun concurrent sérieux pour de nombreux problèmes, nous avons décidé d’essayer une autre approche, issue des jeux en ligne. Une libraire (parmi d’autres) permet de se servir de la puissance d’HTML5 et du GPU: pixi.js.

Nous commencerons cet article par une comparaison entre les deux librairies en termes de performance de rendering. Pour clore cet aspect du débat, nous aborderons aussi les transitions CSS natives. Dans un second temps, nous aborderons quelques trucs et astuces pour tirer le meilleur parti de chacun des frameworks et nous verrons même comment combiner les deux.

Le code et les mesures sont disponibles sur github et une démo sur github.io.

Le reste de l’article est en anglais.

Big Data

IoT et Big Data au programme du dernier AWS Summit

A l’occasion de l’AWS Summit qui s’est déroulé le 27 octobre à Paris, OCTO sortait officiellement la version papier de son livre blanc Cloud Ready Apps. C’était l’occasion d’assister à quelques conférences, parmi lesquelles Créez votre première application Big Data sur AWS et Construisez votre projet IoT avec une architecture Serverless. Voici notre compte-rendu pour chacune d’elles.
Lire la suite

Big Data

Classification d’images : les réseaux de neurones convolutifs en toute simplicité

Vous souhaitez créer une IA capable de classifier des images ?

  • Qu’elle reconnaisse Pikachu sur Pokemon Go ?
  • Qu’elle automatise des opérations répétitives comme le tri de légumes ?
  • Voire qu’elle réalise des tâches expertes comme un diagnostic de la rétinopathie diabétique

Les réseaux de neurones convolutifs sont l’outil de choix dans la besace du Data Scientist pour ce type de problèmes. Ce sont des algorithmes phares du Deep Learning, objets d’intenses recherches… dont la richesse peut impressionner.

Il est pourtant possible de créer très simplement des modèles performants : avec peu d’images, peu de capacités de calcul et sans maîtrise des arcanes algorithmiques. Toute l’astuce consiste à réutiliser des réseaux pré-entraînés sur d’autres problèmes, par des techniques de transfer learning. La librairie open-source Keras permet de coder cela en quelques lignes, avec une API claire et de haut niveau.

Ce guide prend pour exemple la récente compétition Kaggle StateFarm, une excellente arène pour développer vos capacités de dresseurs d’algorithmes. Nous introduisons deux techniques de transfer learning qui donnent d’excellents résultats. Puis nous traversons ensemble les couches techniques mises en oeuvre, pour déjouer les embûches théoriques et pratiques que vous pourriez rencontrer.  Lire la suite

Big Data

Industrialiser le développement et déploiement de plugins Kibana (avec Docker)

par Alexandre Masselot (OCTO Technology Switzerland), Catherine Zwahlen (OCTO Technology Switzerland) et Jonathan Gianfreda.

La possibilité de personnaliser des plugins est une promesse forte de Kibana. Nous proposons un article sur comment écrire de tels plugins de A à Z. Mais ce chemin comprend plus que l’écriture per se d’un plugin: il nous faudra aussi aborder des points comme: « comment mettre in place le déploiement continu? », « comment mettre en place un environnement avec des données initiales? » Ces questions nous embarquent dans la construction d’une infrastructure de développement et de CI, basée sur Docker.

La suite de l’article en anglais…

Big Data

Retours de Strata + Hadoop World 2016 – Partie 2

strata-newBienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming…), rendez-vous sur la première partie de cet article.

Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée  (traitement du langage, data-driven business, partage de la donnée…), et nous terminons par quelques inclassables futuristes ou philosophiques (le futur de l’IA, le futur d’Hadoop, le relativisme des données…).

Lire la suite

Big Data

Retours de Strata + Hadoop World 2016 – Partie 1

strata-newLa conférence Strata + Hadoop World avait lieu à Londres du 2 au 3 juin. L’événement était co-organisé par O’Reilly et Cloudera et les sujets de prédilection des talks étaient bien sûr tous liés au Big Data et à la Datascience. Octo était présent sur place et nous en avons profité pour vous faire un compte rendu des talks auxquels nous avons assistés.

Nous proposons de découper ce compte-rendu en deux parties. Dans ce premier article, nous nous focaliserons les retour d’expériences de technologies en production (nous parlerons Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) et sur les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming…). Dans le second article, nous nous concentrerons sur les autres technologies abordées pendant la conférence (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée  (traitement du langage, data-driven business, partage de la donnée…), et nous terminerons par quelques inclassables futuristes ou philosophiques (le futur de l’IA, le futur d’Hadoop, le relativisme des données…).

Lire la suite

Big Data

Rejoignez-nous au Datastax Day le mardi 14 juin à Paris

Cela fait 8 ans déjà que Cassandra est née. Elle est aujourd’hui à sa 3ème version majeure et c’est l’une des bases les plus utilisées dans la famille NoSQL. Que vous n’ayez jamais pratiqué ou bien que vous soyez experts, rejoignez nous pour découvrir la roadmap et l’écosystème en perpétuelle évolution de Cassandra lors du Datastax day. Lire la suite

Big Data

Une histoire de la data science, par deux data scientists

Cet article n’est pas un article sur l’histoire des sciences ou de la pensée statistique et n’a aucune prétention d’académisme ou d’objectivité. Il est le fruit d’une rencontre entre Matthieu, informaticien expert en machine learning et Michel, statisticien de formation. Ils se sont retrouvés chez OCTO par la pratique du même métier, data scientist (le lecteur souhaitant en savoir plus sur ce métier est renvoyé à (Source blog OCTO). En travaillant ensemble, ils ont compris qu’ils avaient développé, du fait de leurs cursus respectifs, des façons très différentes d’aborder l’analyse de données. Curieux d’échanger leurs savoirs, ils se sont amusés à mettre en regard leurs domaines scientifiques respectifs, ce qui les a amené à comprendre à quel point ils étaient étroitement liés.

Cet article propose donc de partager cette vision croisée sur la data science telle qu’ils la pratiquent sur le terrain dans le quotidien de consultant. Pour cela, une approche chronologique est proposée. Cet article montre en effet comment des préoccupations scientifiques et philosophiques distinctes se sont progressivement retrouvées pour aboutir à la data science d’aujourd’hui, et peut-être à l’intelligence artificielle de demain.

A cet effet, le plan suivant est proposé. Tout d’abord, nous remonterons loin dans le temps, en montrant comment la statistique est devenue un outil indispensable à la création de connaissances humaines et en expliquant comment l’homme, au travers d’un rêve de philosophe, s’est posé la question de l’automatisation de son processus de production de connaissances. Dans une deuxième partie, nous expliciterons comment ce rêve de philosophe est devenu un projet d’ingénieur, qui a donné naissance à l’informatique et aux premières intelligences artificielles. La statistique en sera profondément bouleversée. Ceci nous amènera à la troisième et dernière partie, qui donnera quelques éclairages sur la data science contemporaine, conséquence des bouleversements évoqués.

Prêt à remonter le temps avec vos deux data guide ?

Lire la suite