Auteur: Matthieu Lagacherie

Big Data

Une histoire de la data science, par deux data scientists

Cet article n’est pas un article sur l’histoire des sciences ou de la pensée statistique et n’a aucune prétention d’académisme ou d’objectivité. Il est le fruit d’une rencontre entre Matthieu, informaticien expert en machine learning et Michel, statisticien de formation. Ils se sont retrouvés chez OCTO par la pratique du même métier, data scientist (le lecteur souhaitant en savoir plus sur ce métier est renvoyé à (Source blog OCTO). En travaillant ensemble, ils ont compris qu’ils avaient développé, du fait de leurs cursus respectifs, des façons très différentes d’aborder l’analyse de données. Curieux d’échanger leurs savoirs, ils se sont amusés à mettre en regard leurs domaines scientifiques respectifs, ce qui les a amené à comprendre à quel point ils étaient étroitement liés.

Cet article propose donc de partager cette vision croisée sur la data science telle qu’ils la pratiquent sur le terrain dans le quotidien de consultant. Pour cela, une approche chronologique est proposée. Cet article montre en effet comment des préoccupations scientifiques et philosophiques distinctes se sont progressivement retrouvées pour aboutir à la data science d’aujourd’hui, et peut-être à l’intelligence artificielle de demain.

A cet effet, le plan suivant est proposé. Tout d’abord, nous remonterons loin dans le temps, en montrant comment la statistique est devenue un outil indispensable à la création de connaissances humaines et en expliquant comment l’homme, au travers d’un rêve de philosophe, s’est posé la question de l’automatisation de son processus de production de connaissances. Dans une deuxième partie, nous expliciterons comment ce rêve de philosophe est devenu un projet d’ingénieur, qui a donné naissance à l’informatique et aux premières intelligences artificielles. La statistique en sera profondément bouleversée. Ceci nous amènera à la troisième et dernière partie, qui donnera quelques éclairages sur la data science contemporaine, conséquence des bouleversements évoqués.

Prêt à remonter le temps avec vos deux data guide ?

Lire la suite

Big Data

Avez-vous déjà songé à recruter un Chief Algo Officer ? (Partie 2)

Mad-Max-Fury-8

Lors du précédent article, nous avions évoqué le besoin complexe de développer une approche patrimoniale envers son legacy algorithmique et de chercher à améliorer les pratiques existantes.

Cet article revient sur un exemple nous venant du monde de la finance : l’algotrading et développe ensuite les clefs d’une stratégie possible pour développer le contrôle, déclarer et mettre en oeuvre un « ownership » de ses algorithmes.
Lire la suite

Digitalisation

Avez-vous déjà songé à recruter un Chief Algo Officer ? (Partie 1)

Mad-Max-Fury-8

Un Chief Algo Officier, pour quoi faire ?

L’idée d’un Chief Algo Officier paraît probablement saugrenue voire comique alors que beaucoup d’organisations n’entrent que progressivement dans une transformation plus ou moins assumée de leurs pratiques et relations avec leurs partenaires, fournisseurs ou clients.

Pour autant, les algorithmes sont de plus en plus nombreux autour de nous et sont présents dans de nombreuses sphères de nos vies : depuis les fameuses règles de gestion des solutions logicielles « incarnant » de plus en plus les règles des organisations et entreprises, les algorithmes de calcul permettant de donner droit à une aide ou non, calculer votre impôt, et enfin, le concept de “Smart Everything” visant à rendre « plus efficient » les villes (Smart Cities), les lieux de fabrication (Smart Factory) etc.

Demain, nos véhicules sans conducteurs seront pilotés par un système de pilotage que l’agence américaine des transports vient de reconnaître (ce Mardi 9/02 dans une lettre officielle à lire : ici) comme valable juridiquement. Autrement dit : Google’s robot just got its driver’s license.

Il y a donc un enjeu fondamental à comprendre les algorithmes, à s’intéresser à l’esprit de ces derniers, voire à quelles sociétés futures ils nous préparent.

Précision utile : nous utiliserons dans cet article le terme algorithme au sens large, que ce soit au sens formel ou au sens d’un programme informatique.

Cet article développe les idées suivantes : quelle est l’emprise des algorithmes dans nos organisations et notre société ? Existe-t-il une peur liée à la perte de maîtrise causée par cette emprise ? Quels sont les bénéfices apportés par les algorithmes dans notre vie de tous les jours ?

Lire la suite

Archi & techno

Apprentissage distribué avec Spark

Les solutions big data actuelles se concentrent essentiellement sur l’aspect ETL des traitements. Le modèle MapReduce nous permet d’implémenter facilement des extractions d’informations mais de nombreuses contraintes et limitations apparaissent lors de la conception d’algorithmes de data science. 

Par exemple, les algorithmes itératifs couramment utilisés en machine learning sont difficilement intégrables dans les modèles MapReduce:  le haut-niveau d’intéraction des données impose une gestion et une synchronisation complexe à différentes phases de l’analyse.

Dans cet article nous nous intéressons à un use case typique en machine learning: la conception d’un modèle d’extraction et d’analyse de texte permettant leur classification. Dans ce cadre nous utilisons un modèle classique: la régression logistique. Notre objectif est de démontrer l’adaptation et l’élégance d’implémentation de ces algorithmes en utilisant le framework de calcul distribué Spark.

Lire la suite