Big Data

Big Data

Industrialiser le développement et déploiement de plugins Kibana (avec Docker)

par Alexandre Masselot (OCTO Technology Switzerland), Catherine Zwahlen (OCTO Technology Switzerland) et Jonathan Gianfreda.

La possibilité de personnaliser des plugins est une promesse forte de Kibana. Nous proposons un article sur comment écrire de tels plugins de A à Z. Mais ce chemin comprend plus que l’écriture per se d’un plugin: il nous faudra aussi aborder des points comme: « comment mettre in place le déploiement continu? », « comment mettre en place un environnement avec des données initiales? » Ces questions nous embarquent dans la construction d’une infrastructure de développement et de CI, basée sur Docker.

La suite de l’article en anglais…

Big Data

Retours de Strata + Hadoop World 2016 – Partie 2

strata-newBienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming…), rendez-vous sur la première partie de cet article.

Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée  (traitement du langage, data-driven business, partage de la donnée…), et nous terminons par quelques inclassables futuristes ou philosophiques (le futur de l’IA, le futur d’Hadoop, le relativisme des données…).

Lire la suite

Big Data

Retours de Strata + Hadoop World 2016 – Partie 1

strata-newLa conférence Strata + Hadoop World avait lieu à Londres du 2 au 3 juin. L’événement était co-organisé par O’Reilly et Cloudera et les sujets de prédilection des talks étaient bien sûr tous liés au Big Data et à la Datascience. Octo était présent sur place et nous en avons profité pour vous faire un compte rendu des talks auxquels nous avons assistés.

Nous proposons de découper ce compte-rendu en deux parties. Dans ce premier article, nous nous focaliserons les retour d’expériences de technologies en production (nous parlerons Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) et sur les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming…). Dans le second article, nous nous concentrerons sur les autres technologies abordées pendant la conférence (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée  (traitement du langage, data-driven business, partage de la donnée…), et nous terminerons par quelques inclassables futuristes ou philosophiques (le futur de l’IA, le futur d’Hadoop, le relativisme des données…).

Lire la suite

Big Data

Rejoignez-nous au Datastax Day le mardi 14 juin à Paris

Cela fait 8 ans déjà que Cassandra est née. Elle est aujourd’hui à sa 3ème version majeure et c’est l’une des bases les plus utilisées dans la famille NoSQL. Que vous n’ayez jamais pratiqué ou bien que vous soyez experts, rejoignez nous pour découvrir la roadmap et l’écosystème en perpétuelle évolution de Cassandra lors du Datastax day. Lire la suite

Big Data

Une histoire de la data science, par deux data scientists

Cet article n’est pas un article sur l’histoire des sciences ou de la pensée statistique et n’a aucune prétention d’académisme ou d’objectivité. Il est le fruit d’une rencontre entre Matthieu, informaticien expert en machine learning et Michel, statisticien de formation. Ils se sont retrouvés chez OCTO par la pratique du même métier, data scientist (le lecteur souhaitant en savoir plus sur ce métier est renvoyé à (Source blog OCTO). En travaillant ensemble, ils ont compris qu’ils avaient développé, du fait de leurs cursus respectifs, des façons très différentes d’aborder l’analyse de données. Curieux d’échanger leurs savoirs, ils se sont amusés à mettre en regard leurs domaines scientifiques respectifs, ce qui les a amené à comprendre à quel point ils étaient étroitement liés.

Cet article propose donc de partager cette vision croisée sur la data science telle qu’ils la pratiquent sur le terrain dans le quotidien de consultant. Pour cela, une approche chronologique est proposée. Cet article montre en effet comment des préoccupations scientifiques et philosophiques distinctes se sont progressivement retrouvées pour aboutir à la data science d’aujourd’hui, et peut-être à l’intelligence artificielle de demain.

A cet effet, le plan suivant est proposé. Tout d’abord, nous remonterons loin dans le temps, en montrant comment la statistique est devenue un outil indispensable à la création de connaissances humaines et en expliquant comment l’homme, au travers d’un rêve de philosophe, s’est posé la question de l’automatisation de son processus de production de connaissances. Dans une deuxième partie, nous expliciterons comment ce rêve de philosophe est devenu un projet d’ingénieur, qui a donné naissance à l’informatique et aux premières intelligences artificielles. La statistique en sera profondément bouleversée. Ceci nous amènera à la troisième et dernière partie, qui donnera quelques éclairages sur la data science contemporaine, conséquence des bouleversements évoqués.

Prêt à remonter le temps avec vos deux data guide ?

Lire la suite

Big Data

Avez-vous déjà songé à recruter un Chief Algo Officer ? (Partie 2)

Mad-Max-Fury-8

Lors du précédent article, nous avions évoqué le besoin complexe de développer une approche patrimoniale envers son legacy algorithmique et de chercher à améliorer les pratiques existantes.

Cet article revient sur un exemple nous venant du monde de la finance : l’algotrading et développe ensuite les clefs d’une stratégie possible pour développer le contrôle, déclarer et mettre en oeuvre un « ownership » de ses algorithmes.
Lire la suite

Big Data

Sortie de notre livre blanc : Hadoop, feuille de route

À mettre dans les mains de tous les experts !
Préface de Doug Cutting, le créateur d’Hadoop.

Hadoop, feuille de route est le dernier livre blanc né de l’expertise des consultants OCTO acquise en projets chez nos clients ainsi que l’aboutissement de 5 ans de veille active sur cette plateforme Open Source, son écosytème et les enjeux architecturaux qui en découlent.
Lire la suite

Big Data

Une analyse géographique des articles de Medline

D’où viennent les publications scientifiques ? Une analyse géographique des articles de Medline.

www.octo.chOù et quand ont été publié des articles scientifiques ? Quels pays collaborent-ils le plus entre eux ? Pour tenter de répondre à ces questions, nous avons choisi de nous pencher sur Medline, la base de données de référence en matière de journaux traitant de la biologie et la biomédecine.

“Big Data” n’est pas seulement un buzz word. Ou plus seulement… Un riche ecosystème d’outils se développe, des paradigmes architecturaux ont vu le jour et permettent de relever de nouveaux défis. Une multitude de données publiques sont disponibles, offrant des opportunités d’analyses sans fin.

Pour finalement présenter un outil web interactif permettant d’explorer ces données, nous présenterons une nouvelle méthode de localisation géographique sur la base d’adresse de qualités diverses. Nous décrirons le traitement de ces citations dans un écosystème orienté Hadoop avec Scala, Spark et Zeppelin. Finalement, nous aborderons la partie web, basée sur les librairies JavaScript React et d3.js. Le code source est disponible sur github et l’application disponible sur Amazon AWS.

La suite de l’article est disponible en anglais : Geolocalizing Medline citations.

Big Data

Quel sens métier pour les métriques de classification ?

Lors d’un projet de datascience, il n’est pas rare de proposer un certain nombre de métriques pour évaluer des modèles de machine learning. Ces métriques sont censées quantifier le niveau de la prédiction et donner une idée plus ou moins précise de la qualité du pattern obtenu.
Or ces métriques, issues du monde des statistiques, ne fournissent pas toujours d’interprétation métier immédiate et restent donc cantonnées au statut de nombre abstrait. Cet article a pour objectif d’expliquer ces métriques du point d’un point de vue métier, avec quelques exemples concrets et illustrés.

Lire la suite