Data Science

Data Science

Visualisation et compréhension des réseaux de neurones convolutionnels

Les réseaux de neurones convolutionnels permettent d’effectuer diverses tâches de traitement d’images, comme de la reconnaissance d’images ou la détection d’objets. (Cf article sur le fonctionnement des réseaux de neurones ici) Dans la suite de cet article, nous nous pencherons sur le cas réseaux de neurones convolutionnels pour la classification d’images afin de garder une trame simplifiée et cohérente. Lors de l’entraînement d’un réseau de neurones, on juge la qualité des résultats à l’aide de certaines métriques. Des images sont fournies en entrée et une…

Lire la suite
Data Science

Data science en production : les difficultés pour récupérer la prédiction idéale.

Introduction En phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire. Cette évaluation n’est qu’un a priori car lors de la phase de construction, des hypothèses ont été formulées et celles-ci peuvent se révéler fausses en phase de production. Il faut donc également s’évaluer lors de cette…

Lire la suite
Data Science

NLP : une classification multilabels simple, efficace et interprétable

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter. Avant toute chose, le code est disponible sur Github. Il contient deux web-apps : une permettant d’entraîner un modèle sur son propre dataset et une permettant d’afficher les prédictions et de les interpréter. A noter…

Lire la suite
Data Science

Apprentissage par renforcement appliqué à la conduite autonome dans un simulateur 1/2

Afin d’explorer de nouvelles possibilités concernant la conduite autonome, de nombreuses compétitions de mini-voitures autonomes existent telles que la compétition de l’Iron Car ou encore la compétition Donkey ® Car  aux États-Unis. Lors de ces compétitions, des mini voitures (type voitures radiocommandées) doivent parcourir quelques tours d’un circuit faisant approximativement la taille d’un hangar. Dans cet article, nous allons étudier l’utilisation d’une solution d’apprentissage par renforcement (RL - Reinforcement Learning - pour les intimes) pour la conduite autonome selon le contexte schématisé en figure 1.

Lire la suite
Data Science

Données déséquilibrées, que faire ?

Dans un problème de classification, il arrive souvent d’avoir des datasets très déséquilibrés. On parle d’un dataset déséquilibré lorsque le ratio des observations d’une classe par rapport à l’ensemble des observations est très faible. Cette notion de déséquilibre de classes est relativement fréquente dans plusieurs secteurs comme le secteur médical ou le secteur bancaire et elle est problématique lorsqu’elle n’est pas traitée. En adoptant une approche naïve de classification, autrement une approche qui ne prend pas en compte ce déséquilibre des classes, on risque fortement…

Lire la suite
Data Science

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Data Science

La Duck Conf 2020 – Découvrez le programme complet !

La Duck Conf est la conférence des amoureux de l'architecture SI dispensée par nos experts. Cette troisième édition s’adresse aux architectes techniques, architectes de données et d’entreprise, aux TechLead et aux experts en tout genre qui souhaitent soulever le capot et aborder concrètement leurs problématiques projet… Unique à Paris, elle offre un tour d’horizon des meilleures pratiques d’architecture fondé sur l’expertise et l’expérience terrain de nos experts : DevOps, API Management, Kubernetes, Data Science, Agilité, AppSec, ESB, TDD... Un track / une journée Un line-up d’experts…

Lire la suite
Data Science

Une alternative au monitoring de distributions

Lorsque l’on s'apprête à mettre (ou lorsque l’on a mis) un système de data science en production, on souhaite s’assurer qu’il fonctionne comme prévu. Pour cela, il convient de monitorer ce système intelligent. On peut s’intéresser à des problématiques opérationnelles classiques, telles que la consommation des ressources du système, mais aussi au bon fonctionnement d’un point de vue de la data science. Pour adresser ce dernier point, la solution vers laquelle on tend généralement est le monitoring de diverses distributions calculées à partir des données…

Lire la suite
Data Science

Marier machine learning et physique : le point de vue d’un data scientist

Cet article s'adresse à mes collègues data scientists. Il s'appuie en grande partie sur un article de 2017 intitulé “Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data” [TGDS]. [TGDS] discute des apports de la data science auprès des chercheurs scientifiques. Notre propos, dans cet article, est de résumer [TGDS] à la lumière de nos pratiques usuelles de data science, et de faire l'exercice inverse : comment ces pratiques peuvent-elles s'inscrire dans l'effort scientifique ? Comment présenter notre démarche à des scientifiques désireux…

Lire la suite
Data Science

Interprétabilité des systèmes de data science

En mission, nous rencontrons de plus en plus des besoins d'interprétabilité. Ce changement est dû à une évolution de la maturité des organisations sur la data science. En caractérisant un peu le trait, hier les projets de data science étaient surtout marketing (Ex : prédiction d'appétence ou d’attrition à des fins de ciblage). Ils étaient faits à partir de données versées dans un datalake avec des processus plus ou moins maîtrisés. Ces données étaient manipulées et transformées de manière plus ou moins rigoureuse. L’objectif principal…

Lire la suite