Data Science

Data Science

Data science en production : les difficultés pour récupérer la prédiction idéale.

Introduction En phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire. Cette évaluation n’est qu’un a priori car lors de la phase de construction, des hypothèses ont été formulées et celles-ci peuvent se révéler fausses en phase de production. Il faut donc également s’évaluer lors de cette…

Lire la suite
Archi & techno

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Data Science

Une alternative au monitoring de distributions

Lorsque l’on s'apprête à mettre (ou lorsque l’on a mis) un système de data science en production, on souhaite s’assurer qu’il fonctionne comme prévu. Pour cela, il convient de monitorer ce système intelligent. On peut s’intéresser à des problématiques opérationnelles classiques, telles que la consommation des ressources du système, mais aussi au bon fonctionnement d’un point de vue de la data science. Pour adresser ce dernier point, la solution vers laquelle on tend généralement est le monitoring de diverses distributions calculées à partir des données…

Lire la suite
Big Data

Interprétabilité des systèmes de data science

En mission, nous rencontrons de plus en plus des besoins d'interprétabilité. Ce changement est dû à une évolution de la maturité des organisations sur la data science. En caractérisant un peu le trait, hier les projets de data science étaient surtout marketing (Ex : prédiction d'appétence ou d’attrition à des fins de ciblage). Ils étaient faits à partir de données versées dans un datalake avec des processus plus ou moins maîtrisés. Ces données étaient manipulées et transformées de manière plus ou moins rigoureuse. L’objectif principal…

Lire la suite
Big Data

Calibration de probabilité

Dans un article traitant des intervalles de prédiction, nous avions abordé une technique de mesure d’incertitude en régression. Qu’en est-il de cette mesure pour l’autre pan de l’apprentissage supervisé : la classification ? En classification aussi, il convient de pouvoir maîtriser le niveau de confiance dans la sortie des modèles. Prenons l’exemple canonique de la classification binaire des tumeurs (maligne / bénigne) en fonction de leur taille. On aimerait pouvoir affirmer que si la probabilité en sortie est 0.3, on a effectivement un risque de…

Lire la suite
Big Data

L’IA embarquée : entraîner, déployer et utiliser du Deep Learning sur un Raspberry (Partie 3)

Dans cette série d’article, on se propose d’étudier le cas d’usage de reconnaissance de dessins grâce à un raspberry. L’idée est d’utiliser la caméra d’un raspberry pour capturer une image représentant un dessin, et déterminer grâce à un réseau de neurones s’il s’agit d’une voiture ou non. Dans un premier article, on a entraîné un réseau de neurones performant à l’aide du framework Keras. Le second article porte sur le déploiement maîtrisé du modèle dans un environnement de production. Il ne nous reste plus qu’à…

Lire la suite
Big Data

L’IA embarquée : entraîner, déployer et utiliser du Deep Learning sur un Raspberry (Partie 1)

Pour la deuxième année consécutive, OCTO Technology prend part à la course Iron Car avec son équipage Octonomous. Pour rappel, le but de la compétition est de réaliser trois tours de circuit avec une voiture de taille réduite le plus rapidement possible. Bien entendu, la voiture n’est pas radiocommandée ; une des règles de la compétition est précisément d’utiliser un réseau de neurones pour le pilotage de la voiture ! Le matériel autorisé, outre la voiture, est composé d’un Raspberry Pi et de sa caméra…

Lire la suite
Archi & techno

On entend beaucoup de choses sur l’architecture de SI…

...mais on a rarement des réponses claires aux questions qu’on se pose ! La Duck Conf est faite pour ça ; pour partager et explorer des sujets pratiques, techniques, incontournables, qui nous font aimer l’archi. A commencer par les grands classiques : que faire du legacy ? Ou plus récemment, comment je me mets en conformité avec le RGPD ?... En s’attaquant à des sujets techniques pointus, comme celui des transactions distribuées en environnement microservices. Sans oublier de se faire plaisir avec des domaines plus…

Lire la suite
Archi & techno

Compte-Rendu de Matinale : Levez la malédiction du passage de l’IA en production

Jeudi 29 novembre, l’équipe Big Data Analytics, en charge des sujets d'Intelligence Artificielle à OCTO Technology, a présenté au cours d'une Matinale sa vision de l'industrialisation de l'IA (voir la vidéo de la Matinale, obtenir les slides). L’IA, actuellement portée par la hype, est un buzzword qui veut souvent dire tout et n’importe quoi. Data scientists, métiers, marketing, utilisateurs, etc. chacun y va de sa définition. Nos clients se retrouvent avec des POCs d’applications d’IA sans fin qui peinent à être industrialisés et à être intégrés dans…

Lire la suite
Data Science

Les intervalles de prédiction

Dans le cadre de l’apprentissage supervisé, un modèle de régression permet d’inférer la valeur associée à une observation à partir d’exemples. Prosaïquement, on cherche à prédire le comportement moyen d’une variable cible Y à partir des variables explicatives X décrivant les observations. C’est l'espérance de Y sachant X, notée E[Y|X]. Est-il possible d’aller chercher plus d’information que le seul comportement moyen à partir d’un modèle de prédiction ? Peut-on quantifier l’erreur de notre modèle dans ses prédictions ? Pour illustrer la réponse à ces questions…

Lire la suite