Big Data

Big Data

Une histoire de la data science, par deux data scientists

Cet article n’est pas un article sur l’histoire des sciences ou de la pensée statistique et n’a aucune prétention d’académisme ou d’objectivité. Il est le fruit d’une rencontre entre Matthieu, informaticien expert en machine learning et Michel, statisticien de formation. Ils se sont retrouvés chez OCTO par la pratique du même métier, data scientist (le lecteur souhaitant en savoir plus sur ce métier est renvoyé à (Source blog OCTO). En travaillant ensemble, ils ont compris qu’ils avaient développé, du fait de leurs cursus respectifs, des façons…

Lire la suite
Big Data

Avez-vous déjà songé à recruter un Chief Algo Officer ? (Partie 2)

Lors du précédent article, nous avions évoqué le besoin complexe de développer une approche patrimoniale envers son legacy algorithmique et de chercher à améliorer les pratiques existantes. Cet article revient sur un exemple nous venant du monde de la finance : l'algotrading et développe ensuite les clefs d'une stratégie possible pour développer le contrôle, déclarer et mettre en oeuvre un « ownership » de ses algorithmes.

Lire la suite
Big Data

Sortie de notre livre blanc : Hadoop, feuille de route

À mettre dans les mains de tous les experts ! Préface de Doug Cutting, le créateur d’Hadoop. Hadoop, feuille de route est le dernier livre blanc né de l'expertise des consultants OCTO acquise en projets chez nos clients ainsi que l'aboutissement de 5 ans de veille active sur cette plateforme Open Source, son écosytème et les enjeux architecturaux qui en découlent.

Lire la suite
Big Data

Une analyse géographique des articles de Medline

D’où viennent les publications scientifiques ? Une analyse géographique des articles de Medline. Où et quand ont été publié des articles scientifiques ? Quels pays collaborent-ils le plus entre eux ? Pour tenter de répondre à ces questions, nous avons choisi de nous pencher sur Medline, la base de données de référence en matière de journaux traitant de la biologie et la biomédecine. “Big Data” n’est pas seulement un buzz word. Ou plus seulement… Un riche ecosystème d’outils se développe, des paradigmes architecturaux ont vu le jour et…

Lire la suite
Big Data

Quel sens métier pour les métriques de classification ?

Lors d'un projet de datascience, il n'est pas rare de proposer un certain nombre de métriques pour évaluer des modèles de machine learning. Ces métriques sont censées quantifier le niveau de la prédiction et donner une idée plus ou moins précise de la qualité du pattern obtenu. Or ces métriques, issues du monde des statistiques, ne fournissent pas toujours d'interprétation métier immédiate et restent donc cantonnées au statut de nombre abstrait. Cet article a pour objectif d'expliquer ces métriques du point d'un point de vue…

Lire la suite
Big Data

Avez-vous vraiment besoin d’un architecte big data ?

“Architecte big data”, ce sont trois mots qui vont bien ensemble. On les entend souvent, et une recherche Google remonte un nombre certain de CV et d’offres d’emploi. Moi-même, dans les réponses commerciales d’OCTO, je me cite souvent comme “architecte big data”, à même de faire partie d’une équipe projet chez le client. Une partie du travail consiste souvent à expliquer les concepts de big data aux architectes "tout court" du client, avant de les rassurer en leur montrant que les systèmes que nous construisons…

Lire la suite
Big Data

Spark summit 2015

Tous les slides des conférences seront ici (tous ne sont pas disponibles). Des nombreuses conférences auxquelles nous avons assisté ressortent plusieurs lignes de forces dans l’écosystème Spark. Avec le Bigdata, gagner un cycle, c’est gagner des heures dans les traitements. Les données doublant tous les 2 ans, il faut retarder le jour où nous ne seront plus en capacité de les traiter. Pour cela, toute optimisation est bonne à prendre.

Lire la suite
Big Data

De nouveaux défis digitaux en sciences de la vie : dans l’Arc Lémanique et au delà

Dans un monde digital plein d'opportunités, les sciences de la vie font face à d'imposants défis. Si le secteur est dynamique, d'un point de vue économique comme scientifique, l'innovation dans le laboratoire doit souvent aller de pair avec une profonde évolution du système d'information. Dans cet article, nous partons d'une situation locale suisse, dans la région lémanique, pour en extraire les grandes tendances du domaine. Dans un second temps, nous nous penchons sur les problèmes techniques récurrents, qu'ils soient d'ordre technologique ou méthodologique. Les acteurs…

Lire la suite
Big Data

L’évolution des bottlenecks dans l’écosystème BigData

Je vous propose dans cet article une revue chronologique des événements et des idées qui ont contribué à l’émergence des technologies Big Data d’aujourd’hui et de demain. Ce que nous pouvons constater au niveau des bottlenecks (=goulots d’étranglements) est qu’ils se déplacent en fonction des avancées techniques que nous faisons. Aujourd’hui c’est le garbage collector de la JVM, demain ce sera un problème différent. Voici ma version de l’Histoire :

Lire la suite
Big Data

Collecte de tickets de caisse : vue sur l’architecture

Suite à notre premier article sur les enjeux métiers que représentent la collecte et l’analyse de la donnée dans le secteur de la grande distribution, nous allons présenter un use case et les problématiques qui y sont associées. Nous verrons comment leur faire face en se basant sur des technologies récentes qui ont déjà fait leurs preuves chez les géants du Web : Kafka, Spark et Cassandra.

Lire la suite