Data Science
Data science : La shadow production pour vérifier le bon fonctionnement d’un modèle avant son déploiement
Data & AI
Avant de déployer un nouveau modèle en production il est difficile de savoir précisément comment il va se comporter. La shadow production est une technique qui permet de se rassurer sur les performances du modèle avant de le déployer.Dans notre précédent article sur les alternatives aux monitoring de distributions, nous évoquions brièvement le conc...

Lorsqu'un modèle de Machine Learning tourne en production, il nous faut l'améliorer. Voici un retour d'expérience.

Aujourd’hui, de plus en plus de sociétés et de marques décident de s’équiper de chatbots, aussi bien à destination de leurs clients qu’à destination de leurs collaborateurs. Cependant, tous les chatbots ne se valent pas : certains obtiennent de meilleurs résultats que d’autres. La question alors soulevée est : pourquoi est-ce que certains chatbots ...

IntroductionL’une des premières choses que l’on apprend en Machine Learning est qu’il faut souvent faire un compromis entre la performance d’un modèle et son interprétabilité. Les modèles transparents (interprétables by design, ou directement interprétables par un humain, comme la régression linéaire ou les arbres de décision) sont en général moins...

Les réseaux de neurones convolutionnels permettent d’effectuer diverses tâches de traitement d’images, comme de la reconnaissance d’images ou la détection d’objets. (Cf article sur le fonctionnement des réseaux de neurones ici)Dans la suite de cet article, nous nous pencherons sur le cas réseaux de neurones convolutionnels pour la classification d’...

IntroductionEn phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire.Cette évaluation n’est qu’un a priori...

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter.Avant toute chose, l...

Dans un problème de classification, il arrive souvent d’avoir des datasets très déséquilibrés. On parle d’un dataset déséquilibré lorsque le ratio des observations d’une classe par rapport à l’ensemble des observations est très faible.Cette notion de déséquilibre de classes est relativement fréquente dans plusieurs secteurs comme le secteur médical...
Mise en prod de la data science, le jour d’après - Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020
Data & AI
On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’a...

La Duck Conf est la conférence des amoureux de l'architecture SI dispensée par nos experts.Cette troisième édition s’adresse aux architectes techniques, architectes de données et d’entreprise, aux TechLead et aux experts en tout genre qui souhaitent soulever le capot et aborder concrètement leurs problématiques projet…Unique à Paris, elle offre un ...