Data Science

Data Science

Deep Learning à l’échelle : mieux annoter pour mieux scaler

Après quelques mois d’exploration et autres proofs of concept, notre restitution devant le sponsor fait un carton ! On a fait un PoC d’une architecture de réseaux de neurones à l’état de l’art pour détecter des défauts de fabrication sur des objets à partir d'images. Pour y arriver, on a conçu une application Python pour servir ce modèle de deep learning, et on a déployé le tout sur un serveur de démonstration, branché à un écran de restitution et une caméra, au 2e étage de…

Lire la suite
Data Science

Lean for Machine Learning (ML)

La mise en production d’algorithmes d’apprentissage est un chantier dont il faut savoir anticiper l’ampleur. Notre expérience nous a montré que la brique algorithmique n’est qu’une petite partie d’un système complexe : c’est pour cela que nous travaillons à son intégration dans le SI au plus vite afin de lever les inconnues dues à ses spécificités. Dans cet article, nous vous proposons une démarche conduite conjointement avec le métier, dans le but premier d’apporter de la valeur à l’utilisateur final.  Pour illustrer notre démarche de…

Lire la suite
Data Science

Data science : La shadow production pour vérifier le bon fonctionnement d’un modèle avant son déploiement

Avant de déployer un nouveau modèle en production il est difficile de savoir précisément comment il va se comporter. La shadow production est une technique qui permet de se rassurer sur les performances du modèle avant de le déployer.   Dans notre précédent article sur les alternatives aux monitoring de distributions, nous évoquions brièvement le concept de shadow production. La shadow production (également appelée shadow deployment, dark mode ou shadow mode) est une technique qui consiste à faire prédire un modèle sur les données de…

Lire la suite
Data Science

Retour d’expérience : refactoring d’un modèle de Machine Learning qui tourne en Production

L'industrialisation de l'IA s'impose aujourd'hui comme l'un des enjeux majeurs pour les entreprises qui souhaitent l'intégrer dans leurs écosystèmes : en effet, seulement 13% des projets IA make it to production ! Et qui dit industrialisation dit mise en production !  Pourtant, à une époque pas si lointaine, parler d'algorithme de ML était souvent synonyme d'obscures explorations de data scientists et d'artefacts incompréhensibles à ne surtout pas toucher une fois livrés en production. Heureusement, les choses ont changé et des pratiques pour mettre en production…

Lire la suite
Data Science

Benchmark des plateformes NLU

octogone

Aujourd’hui, de plus en plus de sociétés et de marques décident de s’équiper de chatbots, aussi bien à destination de leurs clients qu’à destination de leurs collaborateurs. Cependant, tous les chatbots ne se valent pas : certains obtiennent de meilleurs résultats que d’autres. La question alors soulevée est : pourquoi est-ce que certains chatbots comprennent, mieux que d’autres, les actions que nous essayons d’effectuer ? La création d'un chatbot nécessite l'utilisation d'une plateforme composée d'une interface de chat, d'un NLU, d'arbres de dialogue, d'interfaces d'administration, de…

Lire la suite
Data Science

Introduction à l’interprétation de modèles de Machine Learning

 Introduction L’une des premières choses que l’on apprend en Machine Learning est qu’il faut souvent faire un compromis entre la performance d’un modèle et son interprétabilité. Les modèles transparents (interprétables by design, ou directement interprétables par un humain, comme la régression linéaire ou les arbres de décision) sont en général moins performants que les modèles boîte noire, c.à.d qui ne sont pas directement interprétables par l’humain, comme XGBoost ou les réseaux de neurones artificiels. Cet article propose une introduction à des méthodes d’interprétation de modèles…

Lire la suite
Data Science

Distanciation physique, comment la Data Science entre en jeu ?

Depuis le début de l’année 2020, le monde vit au rythme du coronavirus. Plusieurs pays ont été obligés de ralentir, voire arrêter pour certains secteurs, leurs activités. Après de nombreuses semaines de confinement, si les entreprises s’apprêtent petit à petit à reprendre leurs activités, elles doivent cependant garantir la sécurité de leurs employés en faisant respecter les règles de distanciation physique et les gestes barrières imposés par les autorités. Plusieurs initiatives sont aujourd’hui en cours autour du Smart Building de l’après-confinement. Ces initiatives ont pour…

Lire la suite
Data Science

Visualisation et compréhension des réseaux de neurones convolutionnels

Les réseaux de neurones convolutionnels permettent d’effectuer diverses tâches de traitement d’images, comme de la reconnaissance d’images ou la détection d’objets. (Cf article sur le fonctionnement des réseaux de neurones ici) Dans la suite de cet article, nous nous pencherons sur le cas réseaux de neurones convolutionnels pour la classification d’images afin de garder une trame simplifiée et cohérente. Lors de l’entraînement d’un réseau de neurones, on juge la qualité des résultats à l’aide de certaines métriques. Des images sont fournies en entrée et une…

Lire la suite
Data Science

Data science en production : les difficultés pour récupérer la prédiction idéale.

Introduction En phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire. Cette évaluation n’est qu’un a priori car lors de la phase de construction, des hypothèses ont été formulées et celles-ci peuvent se révéler fausses en phase de production. Il faut donc également s’évaluer lors de cette…

Lire la suite
Data Science

NLP : une classification multilabels simple, efficace et interprétable

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter. Avant toute chose, le code est disponible sur Github. Il contient deux web-apps : une permettant d’entraîner un modèle sur son propre dataset et une permettant d’afficher les prédictions et de les interpréter. A noter…

Lire la suite