monitoring

Data Science

[MLOps] Monitoring & proactive notification d’une application de Machine Learning

En tant que développeur d’application embarquant une brique de Machine Learning notre  principal objectif est d’avoir une application utilisée qui fonctionne sans bogue.  Une fois en production et utilisée, il faut anticiper ou identifier les bogues dans notre application et les résoudre au plus vite, afin de maintenir le service rendu et en tirer réellement profit. Nous détaillerons plus précisément la notion de bogue en ML, mais pour commencer nous pouvons dire qu'un bogue en ML est soit une absence de prédiction, soit une erreur…

Lire la suite
Data

Et si les métriques de monitoring de ML devenaient fonctionnalités ?

Les équipes développant des applications de Data Science investissent beaucoup d’énergie pour identifier et implémenter des métriques de monitoring pertinentes. Nous pensons qu’il est possible de capitaliser sur ce travail en proposant des fonctionnalités supplémentaires à nos utilisateurs afin de renforcer l’impact de nos applications. Le monitoring s’appuie notamment sur le calcul de métriques à des fins de supervisions; c'est-à-dire mesurer l’état de service et détecter des problèmes. Les métriques calculées peuvent être plus ou moins haut niveau, plus ou moins éloignées du matériel: Bas…

Lire la suite
Accelerate

Au-delà du monitoring technique, l’observabilité du système et des équipes qui le produisent

L’objectif de cet article est de proposer un lien entre observabilité des systèmes techniques et observabilité des organisations. La littérature, les conférences, les retours d’expérience commencent à être assez riches autour de l’importance de la mesure, du monitoring et de l’observabilité de systèmes techniques. Nous proposons ici d’étudier la transposition de ces concepts, ces modèles, ces automatismes à l’observabilité et au debug de systèmes sociaux-techniques. Nous allons dans un premier temps revenir sur quelques définitions et concepts régulièrement partagés autour du monitoring, de l’observabilité et…

Lire la suite
Archi & techno

SLO : la puissance insoupçonnée des métriques

Lorsque l’on exploite un produit ou que l’on monte une infrastructure, il est normal de se poser la question “Est-ce que mon application fonctionne bien ?” En général, il est commun d’avoir deux réponses dans ce genre de cas : Mettre en place du monitoring illustrant le fonctionnement de mon application Mettre en place un système d’alerting pour être prévenu en cas de dysfonctionnement Cependant, rares sont les fois où l'on va se demander si les alertes positionnées sont pertinentes dans mon contexte (ex :…

Lire la suite
Archi & techno

Thanos : une extension de Prometheus ?

Le monitoring, un domaine resté stable pendant plusieurs années, a été récemment bouleversé avec l’apparition de nouvelles technologies remettant en question les pratiques existantes. Depuis de nombreuses années, l’outil Prometheus a été la solution de référence pour superviser une infrastructure de type Cloud, SaaS/Openstack, OKD, K8S. Développé à l'origine par SoundCloud, mis en open source et accepté en 2016 comme deuxième projet de la CNCF (Cloud Native Computing Foundation), Prometheus est devenu tellement populaire que même certains cloud providers (Azure avec Azure Monitor et GCP…

Lire la suite
Data Science

Data science : La shadow production pour vérifier le bon fonctionnement d’un modèle avant son déploiement

Avant de déployer un nouveau modèle en production il est difficile de savoir précisément comment il va se comporter. La shadow production est une technique qui permet de se rassurer sur les performances du modèle avant de le déployer.   Dans notre précédent article sur les alternatives aux monitoring de distributions, nous évoquions brièvement le concept de shadow production. La shadow production (également appelée shadow deployment, dark mode ou shadow mode) est une technique qui consiste à faire prédire un modèle sur les données de…

Lire la suite
Data Science

[MLOps] Les difficultés pour récupérer la prédiction idéale.

Introduction En phase de construction d’un modèle de machine learning supervisé, les data scientists évaluent la performance de leur modèle par rapport aux labels en utilisant une métrique (par exemple l’AUC). Cela leur permet d’avoir un a priori sur les performances du système qu’ils sont en train de construire. Cette évaluation n’est qu’un a priori car lors de la phase de construction, des hypothèses ont été formulées et celles-ci peuvent se révéler fausses en phase de production. Il faut donc également s’évaluer lors de cette…

Lire la suite
Archi & techno

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Data Science

[MLOps] Une alternative au monitoring de distributions

Lorsque l’on s'apprête à mettre (ou lorsque l’on a mis) un système de data science en production, on souhaite s’assurer qu’il fonctionne comme prévu. Pour cela, il convient de monitorer ce système intelligent. On peut s’intéresser à des problématiques opérationnelles classiques, telles que la consommation des ressources du système, mais aussi au bon fonctionnement d’un point de vue de la data science. Pour adresser ce dernier point, la solution vers laquelle on tend généralement est le monitoring de diverses distributions calculées à partir des données…

Lire la suite
Archi & techno

Les capacités d’alerting de Kapacitor

 Kapacitor est un outil de traitement de flux de données temps réel. Il permet d'analyser les données récupérées depuis plusieurs sources tel qu'un agent de collecte (Telegraf), une base de données TimeSeries (InfluxDB), via un service discovery (Consul)... Suite au traitement de ces données, il peut déclencher différentes actions telles qu'envoyer un mail ou exécuter un script shell. Pourquoi Kapacitor ? Nous avions étudié Telegraf et InfluxDb dans un article précédent. Ces outils font partie de la stack TICK (Telegraf, InfluxDB, Chronograf, Kapacitor) proposée…

Lire la suite