data

Archi & techno

Le Système d’Information Héréditaire : l’évolution par la transmission du patrimoine identitaire

Beaucoup d’entreprises partagent maintenant l’idée que pour rester compétitives, la donnée est un élément clef. Il y a quelques années, le Big Data était le nouvel Eldorado : les données ont d’abord été rangées dans des Data Warehouses, construits principalement pour alimenter les activités de Business Intelligence. Puis lorsque de nouveaux cas d’usages ont commencé à émerger, les solutions de stockage ont évolué vers des architectures de type Data Lake qui pouvaient accueillir de la données sous plus de formes. De nouvelles technologies sont apparues…

Lire la suite
Big Data

La Data en entreprise : une question culturelle ?

“Je suis Dominique, Chief Data Officer d’un groupe de distribution français. Mon rôle est de mettre en place différents dispositifs pour fournir à  mes collègues tout un tas de données leur permettant de réfléchir, de prendre des décisions et d’agir plus finement et plus précisément que par le passé. Laissez-moi vous raconter deux anecdotes pour illustrer l’importance des données recueillies dans notre organisation… La semaine dernière, un client a refusé de donner son code postal à la caisse du magasin au moment de payer ses…

Lire la suite
Big Data

Deux ans de RGPD @OCTO

Premier semestre 2018 : branle-bas de combat pour se mettre en conformité avec le RGPD. L’équipe projet a mis votre entreprise en conformité et identifié une liste de points à corriger. Deuxième semestre 2018 : le soufflé retombe. La liste à la prévert des préconisations serait-elle tombée aux oubliettes ?  C’est un scénario réaliste si vous vous étiez constitués en mode projet. Dans notre entreprise, pour éviter cette situation, nous avons constitué une équipe de personnes motivées, avec un sponsor interne et du temps dédié.…

Lire la suite
Data Science

NLP : une classification multilabels simple, efficace et interprétable

Le Machine Learning nous permet aujourd’hui de classifier facilement du texte ; or, le texte appartient parfois à plusieurs catégories, d’où le nom de classification multilabels pour parler de cette tâche. Nous allons voir dans cet article comment traiter ce problème, évaluer la performance de nos algorithmes et les interpréter. Avant toute chose, le code est disponible sur Github. Il contient deux web-apps : une permettant d’entraîner un modèle sur son propre dataset et une permettant d’afficher les prédictions et de les interpréter. A noter…

Lire la suite
Stratégie SI

Barbadata : pour une gouvernance des données agile

La Gouvernance des données : beaucoup de monde en parle, mais qui l’a déjà implémentée ? Mais d’abord, qu’attend-on vraiment d’une gouvernance des données ?  La gouvernance des données a pour but principal de faciliter la production, la circulation et la valorisation des données au sein du système d’information en accord avec les contraintes propres de l’entreprise. Peut-on seulement parler de “LA” gouvernance des données : y a-t-il un seul modèle réplicable ou des pattern à adapter ? Et dans le second cas : comment…

Lire la suite
Archi & techno

Mise en prod de la data science, le jour d’après – Compte-rendu du talk de Mehdi Houacine et Emmanuel-Lin Toulemonde à La Duck Conf 2020

On parle beaucoup de mise en production de data science, mais peu du jour d'après. Que se passe-t-il après la mise en production, comment monitorer un modèle de data science ? Les systèmes de data science introduisent une complexité supérieure à une application de SI traditionnelle puisqu’ils sont souvent composés de composants introduisants de l’aléa. Emmanuel-Lin et Mehdi, consultant data science chez Octo Technology, vous proposent une méthodologie pour mettre en place le monitoring de vos systèmes de data science.   Pour cela, partons d’un…

Lire la suite
Big Data

Créer une web-app interactive en 10min avec Streamlit

Dans un projet de Machine Learning, il y a souvent besoin de visualiser les données sous forme de graphes, que ce soit lors d’une phase exploratoire ou pour montrer les résultats d’une modélisation. Force est de constater qu’intégrer ces graphes à une web-app n’est pas forcément aisé, puisque les outils existants nécessitent pour  la plupart quelques connaissances front-end, Dash par exemple. Et si nous pouvions faire tout ceci en Python, en 10 minutes ? C’est ce que nous allons voir avec Streamlit, une nouvelle librairie…

Lire la suite
Big Data

Un an de RGPD @ OCTO

RGPD @ OCTO

Il y a un an, nous recevions tous une avalanche de mise à jour de nos CGV ou CGU. Il y a un an, le règlement général sur la protection des données (RGPD) entrait en vigueur et faisait la une. Il y a un an aussi, plusieurs d’entre nous découvraient ce qu’était une donnée personnelle : “Est-ce que je dois effacer de mon agenda tous les rendez-vous passés car ils contiennent le nom et les coordonnées des invités ?” “Les traitements exploratoires en datascience, c’est…

Lire la suite