data

Big Data

Deux ans de RGPD @OCTO

Premier semestre 2018 : branle-bas de combat pour se mettre en conformité avec le RGPD. L’équipe projet a mis votre entreprise en conformité et identifié une liste de points à corriger. Deuxième semestre 2018 : le soufflé retombe. La liste à la prévert des préconisations serait-elle tombée aux oubliettes ?  C’est un scénario réaliste si vous vous étiez constitués en mode projet. Dans notre entreprise, pour éviter cette situation, nous avons constitué une équipe de personnes motivées, avec un sponsor interne et du temps dédié.…

Lire la suite
Data Science

NLP : une classification multilabels simple, efficace et interprétable

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter. Avant toute chose, le code est disponible sur Github. Il contient deux web-apps : une permettant d’entraîner un modèle sur son propre dataset et une permettant d’afficher les prédictions et de les interpréter. A noter…

Lire la suite
Stratégie SI

Barbadata : pour une gouvernance des données agile

La Gouvernance des données : beaucoup de monde en parle, mais qui l’a déjà implémentée ? Mais d’abord, qu’attend-on vraiment d’une gouvernance des données ?  La gouvernance des données a pour but principal de faciliter la production, la circulation et la valorisation des données au sein du système d’information en accord avec les contraintes propres de l’entreprise. Peut-on seulement parler de “LA” gouvernance des données : y a-t-il un seul modèle réplicable ou des pattern à adapter ? Et dans le second cas : comment…

Lire la suite
Archi & techno

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Big Data

Créer une web-app interactive en 10min avec Streamlit

Dans un projet de Machine Learning, il y a souvent besoin de visualiser les données sous forme de graphes, que ce soit lors d’une phase exploratoire ou pour montrer les résultats d’une modélisation. Force est de constater qu’intégrer ces graphes à une web-app n’est pas forcément aisé, puisque les outils existants nécessitent pour  la plupart quelques connaissances front-end, Dash par exemple. Et si nous pouvions faire tout ceci en Python, en 10 minutes ? C’est ce que nous allons voir avec Streamlit, une nouvelle librairie…

Lire la suite
Big Data

Un an de RGPD @ OCTO

RGPD @ OCTO

Il y a un an, nous recevions tous une avalanche de mise à jour de nos CGV ou CGU. Il y a un an, le règlement général sur la protection des données (RGPD) entrait en vigueur et faisait la une. Il y a un an aussi, plusieurs d’entre nous découvraient ce qu’était une donnée personnelle : “Est-ce que je dois effacer de mon agenda tous les rendez-vous passés car ils contiennent le nom et les coordonnées des invités ?” “Les traitements exploratoires en datascience, c’est…

Lire la suite