Data Science

Bonne pratique

Amener son projet de machine learning jusqu’en production avec Wheel et Docker

Cet article propose d'explorer setuptools, Wheel et Docker afin de packager une application de Machine Learning pour détecter des muffins 🍪 ou des chihuhuas 🐶 dans une image, avec code a l'appui. Si packager du code de Machine Learning en Python est pour vous synonyme de demander à vos utilisateurs de cloner votre repository git sur leur machine, cet article devrait vous intéresser.

Lire la suite
Accelerate

La gestion visuelle dans un projet de Machine Learning Delivery

Introduction En développement logiciel et en Machine Learning, le travail en cours n’est pas aussi visible que dans une usine où l'on voit les pièces s'assembler et progresser d'une étape à l'autre. Ne pas voir le travail en cours peut nous empêcher de voir certains des points bloquants, de se projeter sur la quantité de travail bientôt terminé, d’améliorer le process, … Pour remédier à cela, il est donc important d’outiller l’équipe pour rendre le travail visible tant au niveau des membres de l'équipe elle-même…

Lire la suite
Big Data

Plongez dans le grand jeu de données (ou comment constituer et gérer son dataset)

Un premier briefing Avant de commencer le grand plongeon, des définitions s’imposent : Jeu de données (ou dataset) : collection de données de même type, de préférence de même format et souvent accompagnées d'annotation Annotation : description du contenu de chacune des données d’un dataset. L’annotation des données est le processus d’étiquetage du contenu reconnaissable par un ordinateur. En fonction de la nature du problème, on indiquera le type de l’objet dans l’image, on peut également indiquer ses coordonnées ou d’autres attributs. Modèle de Machine…

Lire la suite
Accelerate

Accélérer le Delivery de projets de Machine Learning

Cet article sert d'introduction à une série plus large, traitant de l'application du framework Accelerate dans un contexte incluant du Machine Learning Avant de commencer, voici quelques définitions et conventions de nommage que nous adopterons tout au long de la série d'articles : Machine Learning : “Le Machine Learning est une fonctionnalité qui permet à des logiciels d'effectuer une tâche sans programmation ni règles explicites”. (Source google). Machine Learning est souvent abrégé ML. Delivery : le processus permettant de mettre un produit entre les mains…

Lire la suite
Data Science

Nos 10 convictions pour mieux réussir nos projets de Data Science en 2021

Pour cette nouvelle année 2021, nous souhaitons vous proposer 10 convictions qui vous permettront de mieux réussir vos projets de Data Science. Ces convictions sont inspirées de notre quotidien, de nos lectures et des évolutions du marché de la Data Science que nous observons chez OCTO. Livrer continuellement un petit incrément de valeur en production La Data Science, c’est aussi (et surtout) une matière informatique Appliquer les principes d’Accelerate aux projets Data Science Maîtriser la complexité des systèmes de Data Science Constituer des équipes autonomes…

Lire la suite
Data Science

Data science : La shadow production pour vérifier le bon fonctionnement d’un modèle avant son déploiement

Avant de déployer un nouveau modèle en production il est difficile de savoir précisément comment il va se comporter. La shadow production est une technique qui permet de se rassurer sur les performances du modèle avant de le déployer.   Dans notre précédent article sur les alternatives aux monitoring de distributions, nous évoquions brièvement le concept de shadow production. La shadow production (également appelée shadow deployment, dark mode ou shadow mode) est une technique qui consiste à faire prédire un modèle sur les données de…

Lire la suite
Data Science

Data science en production : les difficultés pour récupérer la prédiction idéale.

Introduction En phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire. Cette évaluation n’est qu’un a priori car lors de la phase de construction, des hypothèses ont été formulées et celles-ci peuvent se révéler fausses en phase de production. Il faut donc également s’évaluer lors de cette…

Lire la suite
Archi & techno

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Data Science

Une alternative au monitoring de distributions

Lorsque l’on s'apprête à mettre (ou lorsque l’on a mis) un système de data science en production, on souhaite s’assurer qu’il fonctionne comme prévu. Pour cela, il convient de monitorer ce système intelligent. On peut s’intéresser à des problématiques opérationnelles classiques, telles que la consommation des ressources du système, mais aussi au bon fonctionnement d’un point de vue de la data science. Pour adresser ce dernier point, la solution vers laquelle on tend généralement est le monitoring de diverses distributions calculées à partir des données…

Lire la suite
Big Data

Interprétabilité des systèmes de data science

En mission, nous rencontrons de plus en plus des besoins d'interprétabilité. Ce changement est dû à une évolution de la maturité des organisations sur la data science. En caractérisant un peu le trait, hier les projets de data science étaient surtout marketing (Ex : prédiction d'appétence ou d’attrition à des fins de ciblage). Ils étaient faits à partir de données versées dans un datalake avec des processus plus ou moins maîtrisés. Ces données étaient manipulées et transformées de manière plus ou moins rigoureuse. L’objectif principal…

Lire la suite