Data Science

Data Science

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Data Science

La Duck Conf 2020 – Découvrez le programme complet !

La Duck Conf est la conférence des amoureux de l'architecture SI dispensée par nos experts. Cette troisième édition s’adresse aux architectes techniques, architectes de données et d’entreprise, aux TechLead et aux experts en tout genre qui souhaitent soulever le capot et aborder concrètement leurs problématiques projet… Unique à Paris, elle offre un tour d’horizon des meilleures pratiques d’architecture fondé sur l’expertise et l’expérience terrain de nos experts : DevOps, API Management, Kubernetes, Data Science, Agilité, AppSec, ESB, TDD... Un track / une journée Un line-up d’experts…

Lire la suite
Data Science

Une alternative au monitoring de distributions

Lorsque l’on s'apprête à mettre (ou lorsque l’on a mis) un système de data science en production, on souhaite s’assurer qu’il fonctionne comme prévu. Pour cela, il convient de monitorer ce système intelligent. On peut s’intéresser à des problématiques opérationnelles classiques, telles que la consommation des ressources du système, mais aussi au bon fonctionnement d’un point de vue de la data science. Pour adresser ce dernier point, la solution vers laquelle on tend généralement est le monitoring de diverses distributions calculées à partir des données…

Lire la suite
Data Science

Marier machine learning et physique : le point de vue d’un data scientist

Cet article s'adresse à mes collègues data scientists. Il s'appuie en grande partie sur un article de 2017 intitulé “Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data” [TGDS]. [TGDS] discute des apports de la data science auprès des chercheurs scientifiques. Notre propos, dans cet article, est de résumer [TGDS] à la lumière de nos pratiques usuelles de data science, et de faire l'exercice inverse : comment ces pratiques peuvent-elles s'inscrire dans l'effort scientifique ? Comment présenter notre démarche à des scientifiques désireux…

Lire la suite
Data Science

Interprétabilité des systèmes de data science

En mission, nous rencontrons de plus en plus des besoins d'interprétabilité. Ce changement est dû à une évolution de la maturité des organisations sur la data science. En caractérisant un peu le trait, hier les projets de data science étaient surtout marketing (Ex : prédiction d'appétence ou d’attrition à des fins de ciblage). Ils étaient faits à partir de données versées dans un datalake avec des processus plus ou moins maîtrisés. Ces données étaient manipulées et transformées de manière plus ou moins rigoureuse. L’objectif principal…

Lire la suite
Data Science

SPARK + AI Summit Europe 2019

Introduction   Les 16 & 17 Octobre 2019, nous sommes rendus à Amsterdam afin d’assister à la conférence annuelle organisée par Databricks, le Spark+AI Summit, événement devenu incontournable dans le monde du Big data et de l’IA. Cette année, ce sont plus de 2300 personnes qui ont fait le déplacement pour assister à de nombreuses présentations réparties sur 11 tracks en parallèle. Autant dire que les sujets étaient très denses et nous allons tenter de vous partager l’essentiel de ce qui a retenu notre attention.…

Lire la suite
Data Science

Créer une web-app interactive en 10min avec Streamlit

Dans un projet de Machine Learning, il y a souvent besoin de visualiser les données sous forme de graphes, que ce soit lors d’une phase exploratoire ou pour montrer les résultats d’une modélisation. Force est de constater qu’intégrer ces graphes à une web-app n’est pas forcément aisé, puisque les outils existants nécessitent pour  la plupart quelques connaissances front-end, Dash par exemple. Et si nous pouvions faire tout ceci en Python, en 10 minutes ? C’est ce que nous allons voir avec Streamlit, une nouvelle librairie…

Lire la suite
Data Science

La confiance des utilisateurs dans les systèmes impliquant de l’Intelligence Artificielle

Avec le développement de l’IA, de nombreuses questions sociétales ont émergé : éthique, biais, et dilemmes de l’IA sont des notions fréquemment abordées. Et les réponses à ces questions seront des facteurs essentiels, entend-on souvent, de notre confiance dans les algorithmes de machine-learning qui gouverneront bientôt le monde :-) C’est sans doute vrai, mais la question de la confiance dans les systèmes d'IA ne doit pas être limitée à ces problématiques éthiques. Outre le fait qu’elles dépassent la simple notion de confiance, les réponses à de…

Lire la suite
Data Science

Les réseaux de neurones récurrents : des RNN simples aux LSTM

Les réseaux de neurones constituent aujourd'hui l'état de l'art pour diverses tâches d'apprentissage automatique. Ils sont très largement utilisés par exemple dans les domaines de la vision par ordinateur (classification d'images, détection d'objets, segmentation…) et du traitement automatique du langage (traduction automatique, reconnaissance vocale, modèles de langage…). Dans un précédent article, nous avons utilisé une classe particulière de réseaux de neurones, les RNN : Recurrent Neural Networks. Cette famille de modèles, particulièrement adaptée aux données séquentielles, nous a permis de générer automatiquement, caractère par caractère,…

Lire la suite
Data Science

Algorithmes Évolutionnistes : Applications à des problèmes de données – 2

Partie 2 : Performance des algorithmes évolutionnistes Nous avons pu voir dans la première partie les différents éléments constitutifs d'un algorithme évolutionniste et quelques cas d’utilisations classiques des algorithmes évolutionnistes avec des applications à des problèmes de données.   Pour autant, ces algorithmes sont-ils compétitifs face aux autres types d’algorithmes d’optimisation ? Sur quels types de problèmes sont-ils les plus efficaces ? Cette partie vise à analyser les performances des algorithmes évolutionnistes ainsi que les facteurs qui affectent cette performance, le tout au travers d’un…

Lire la suite