Big Data

Big Data

Une histoire de la data science, par deux data scientists

Cet article n’est pas un article sur l’histoire des sciences ou de la pensée statistique et n’a aucune prétention d’académisme ou d’objectivité. Il est le fruit d’une rencontre entre Matthieu, informaticien expert en machine learning et Michel, statisticien de formation. Ils se sont retrouvés chez OCTO par la pratique du même métier, data scientist (le lecteur souhaitant en savoir plus sur ce métier est renvoyé à (Source blog OCTO). En travaillant ensemble, ils ont compris qu’ils avaient développé, du fait de leurs cursus respectifs, des façons très différentes d’aborder l’analyse de données. Curieux d’échanger leurs savoirs, ils se sont amusés à mettre en regard leurs domaines scientifiques respectifs, ce qui les a amené à comprendre à quel point ils étaient étroitement liés.

Cet article propose donc de partager cette vision croisée sur la data science telle qu’ils la pratiquent sur le terrain dans le quotidien de consultant. Pour cela, une approche chronologique est proposée. Cet article montre en effet comment des préoccupations scientifiques et philosophiques distinctes se sont progressivement retrouvées pour aboutir à la data science d’aujourd’hui, et peut-être à l’intelligence artificielle de demain.

A cet effet, le plan suivant est proposé. Tout d’abord, nous remonterons loin dans le temps, en montrant comment la statistique est devenue un outil indispensable à la création de connaissances humaines et en expliquant comment l’homme, au travers d’un rêve de philosophe, s’est posé la question de l’automatisation de son processus de production de connaissances. Dans une deuxième partie, nous expliciterons comment ce rêve de philosophe est devenu un projet d’ingénieur, qui a donné naissance à l’informatique et aux premières intelligences artificielles. La statistique en sera profondément bouleversée. Ceci nous amènera à la troisième et dernière partie, qui donnera quelques éclairages sur la data science contemporaine, conséquence des bouleversements évoqués.

Prêt à remonter le temps avec vos deux data guide ?

Lire la suite

Big Data

Avez-vous déjà songé à recruter un Chief Algo Officer ? (Partie 2)

Mad-Max-Fury-8

Lors du précédent article, nous avions évoqué le besoin complexe de développer une approche patrimoniale envers son legacy algorithmique et de chercher à améliorer les pratiques existantes.

Cet article revient sur un exemple nous venant du monde de la finance : l’algotrading et développe ensuite les clefs d’une stratégie possible pour développer le contrôle, déclarer et mettre en oeuvre un « ownership » de ses algorithmes.
Lire la suite

Big Data

Sortie de notre livre blanc : Hadoop, feuille de route

À mettre dans les mains de tous les experts !
Préface de Doug Cutting, le créateur d’Hadoop.

Hadoop, feuille de route est le dernier livre blanc né de l’expertise des consultants OCTO acquise en projets chez nos clients ainsi que l’aboutissement de 5 ans de veille active sur cette plateforme Open Source, son écosytème et les enjeux architecturaux qui en découlent.
Lire la suite

Big Data

Une analyse géographique des articles de Medline

D’où viennent les publications scientifiques ? Une analyse géographique des articles de Medline.

www.octo.chOù et quand ont été publié des articles scientifiques ? Quels pays collaborent-ils le plus entre eux ? Pour tenter de répondre à ces questions, nous avons choisi de nous pencher sur Medline, la base de données de référence en matière de journaux traitant de la biologie et la biomédecine.

“Big Data” n’est pas seulement un buzz word. Ou plus seulement… Un riche ecosystème d’outils se développe, des paradigmes architecturaux ont vu le jour et permettent de relever de nouveaux défis. Une multitude de données publiques sont disponibles, offrant des opportunités d’analyses sans fin.

Pour finalement présenter un outil web interactif permettant d’explorer ces données, nous présenterons une nouvelle méthode de localisation géographique sur la base d’adresse de qualités diverses. Nous décrirons le traitement de ces citations dans un écosystème orienté Hadoop avec Scala, Spark et Zeppelin. Finalement, nous aborderons la partie web, basée sur les librairies JavaScript React et d3.js. Le code source est disponible sur github et l’application disponible sur Amazon AWS.

La suite de l’article est disponible en anglais : Geolocalizing Medline citations.

Big Data

Quel sens métier pour les métriques de classification ?

Lors d’un projet de datascience, il n’est pas rare de proposer un certain nombre de métriques pour évaluer des modèles de machine learning. Ces métriques sont censées quantifier le niveau de la prédiction et donner une idée plus ou moins précise de la qualité du pattern obtenu.
Or ces métriques, issues du monde des statistiques, ne fournissent pas toujours d’interprétation métier immédiate et restent donc cantonnées au statut de nombre abstrait. Cet article a pour objectif d’expliquer ces métriques du point d’un point de vue métier, avec quelques exemples concrets et illustrés.

Lire la suite

Big Data

Avez-vous vraiment besoin d’un architecte big data ?

“Architecte big data”, ce sont trois mots qui vont bien ensemble. On les entend souvent, et une recherche Google remonte un nombre certain de CV et d’offres d’emploi. Moi-même, dans les réponses commerciales d’OCTO, je me cite souvent comme “architecte big data”, à même de faire partie d’une équipe projet chez le client. Une partie du travail consiste souvent à expliquer les concepts de big data aux architectes « tout court » du client, avant de les rassurer en leur montrant que les systèmes que nous construisons peuvent rentrer dans le moule de leurs standards (et si possible sans passer pour un hippie irresponsable).

Je suis de plus en plus sceptique sur la pertinence de l’expression « architecte big data ». Etre architecte big data, c’est avant tout être architecte, avec une casquette big data. Précision : cette affirmation ne remet absolument pas en question la valeur d’un expert pointu sur les technologies Hadoop ou NoSQL, pour ne citer qu’elles. Ces technologies sont fort complexes, l’expertise reste extrêmement précieuse. Mon propos vise plutôt une expression à la mode qui masque un vrai problème de perception, chez les consultants comme chez les clients. Aujourd’hui tout architecte devrait avoir une connaissance de big data suffisante pour mener à bien son travail, l’expression ne devrait être qu’un pléonasme. Cette connaissance s’acquiert en acceptant de remettre en question les schémas d’architecture maîtrisés en entreprise, en s’aventurant vers des terrains techniques nouveaux et risqués — risque que l’on réduit en adoptant une culture de l’expérimentation, grâce à des POC (Proofs of Concent) fréquents.

Lire la suite

Big Data

Spark summit 2015

spar summit

Tous les slides des conférences seront ici (tous ne sont pas disponibles).

Des nombreuses conférences auxquelles nous avons assisté ressortent plusieurs lignes de forces dans l’écosystème Spark. Avec le Bigdata, gagner un cycle, c’est gagner des heures dans les traitements. Les données doublant tous les 2 ans, il faut retarder le jour où nous ne seront plus en capacité de les traiter. Pour cela, toute optimisation est bonne à prendre.
Lire la suite

Big Data

De nouveaux défis digitaux en sciences de la vie : dans l’Arc Lémanique et au delà

www.octo.chDans un monde digital plein d’opportunités, les sciences de la vie font face à d’imposants défis. Si le secteur est dynamique, d’un point de vue économique comme scientifique, l’innovation dans le laboratoire doit souvent aller de pair avec une profonde évolution du système d’information.

Dans cet article, nous partons d’une situation locale suisse, dans la région lémanique, pour en extraire les grandes tendances du domaine. Dans un second temps, nous nous penchons sur les problèmes techniques récurrents, qu’ils soient d’ordre technologique ou méthodologique.

Les acteurs des sciences de la vie ont certainement une culture particulière et doivent relever des défis numériques originaux. Mais quand sonne l’heure de la transformation digitale vers plus de mobilité, le Big Data ou l’agilité, il existe une grande convergence avec les défis rencontrés dans d’autres domaines comme la finance, la vente au détail ou les média sociaux. Il est alors opportun de s’inspirer des expériences rencontrées dans ces domaines (et vice versa).

La suite de l’article en anglais: http://blog.octo.com/en/new-digital-challenges-in-life-science-the-swiss-lemanic-area-and-beyond

Big Data

L’évolution des bottlenecks dans l’écosystème BigData

Je vous propose dans cet article une revue chronologique des événements et des idées qui ont contribué à l’émergence des technologies Big Data d’aujourd’hui et de demain. Ce que nous pouvons constater au niveau des bottlenecks (=goulots d’étranglements) est qu’ils se déplacent en fonction des avancées techniques que nous faisons. Aujourd’hui c’est le garbage collector de la JVM, demain ce sera un problème différent.

Voici ma version de l’Histoire :
Lire la suite

Big Data

Collecte de tickets de caisse : vue sur l’architecture

Suite à notre premier article sur les enjeux métiers que représentent la collecte et l’analyse de la donnée dans le secteur de la grande distribution, nous allons présenter un use case et les problématiques qui y sont associées. Nous verrons comment leur faire face en se basant sur des technologies récentes qui ont déjà fait leurs preuves chez les géants du Web : Kafka, Spark et Cassandra.

Lire la suite