Data Science

Data Science

Comment structurer vos équipes et démocratiser l’Intelligence Artificielle au sein de votre organisation

Introduction des auteurs et de l’initiative Dans le cadre des réflexions d’OCTO Technology sur les grands enjeux du monde de la data, Jean-Baptiste Larraufie consultant OCTO et Ming-Li Gridel Directrice Data science chez DataRobot ont amorcé une discussion sur l’évolution des structures data dans les entreprises.  En tant que conseiller stratégique sur les initiatives data de grands groupes français, OCTO Technology a contribué à diverses et nombreuses missions d'Intelligence Artificielle (IA) et assisté à la structuration d’équipes Data chez nombre d’entreprises de l’hexagone. DataRobot, partenaire d’OCTO,…

Lire la suite
Agile

Les spécificités d’un PO data – Café du PO #8

L’épisode #8 :  Pour ce huitième épisode qui a eu lieu le 1 mars et qui était animé par Lina Yahi, nous avons échangé sur les spécificités d’un PO Data avec deux invités qui nous ont partagé leurs retours d’expérience respectifs :   Capucine Claude, PO data pour Mon espace santé. Yoan Eynaud, Data Scientist / Statisticien. Actuellement PO/PM data au ministère de l’intérieur. Découvrez l’épisode #8 en sketchnote : Sketchnote du café du PO #8, réalisée par Clément Schrimpf : Les take away  Un produit…

Lire la suite
Data Science

Rendre représentatif ce qu’on observe : l’exemple des données Twitter pour l’élection présidentielle 2022

Un article pour définir les bases méthodologiques à la construction d'un outil d'analyse de tendances cohérent à partir des données observées. Nous prendrons ensuite l'exemple du projet laVoixDesElections.fr pour apprécier l'importance de cette méthodologie dans l'analyse des données des réseaux sociaux

Lire la suite
Archi & techno

Modèle embarqué VS model as a service : quelle stratégie choisir ?

    Introduction Vous avez développé un super modèle de Machine Learning, les performances sont au top et il résout un vrai problème. Malheureusement, personne n’en aura jamais connaissance si vous ne le déployez pas en production. Votre modèle n’aura été qu’un POC parmi tant d’autres et ne créera jamais de valeur pour l’entreprise et pour vos utilisateurs. Il y a quelques années, alors que les modèles n’étaient que très rarement déployés en production, la question de l’exposition était souvent anecdotique. Avec la croissance grandissante…

Lire la suite
Data

Implémente moi un CNN

L’éco-système en Machine Learning et en particulier en Deep Learning s’est enrichi ces dernières années et les outils proposés sont de plus en plus haut niveau. Tant et si bien qu’il n’est plus toujours nécessaire d’avoir une connaissance approfondie des modèles pour mener à bien un projet de Data Science. Cette multitude de solutions a l’avantage de rendre le machine learning accessible à un plus grand nombre mais au détriment de la compréhension théorique. En effet, le Deep Learning n’est plus le domaine réservé des…

Lire la suite
Accelerate

Rendre visible la chaîne de valeur dans un projet de Machine Learning Delivery

“Make the flow of work visible through the value stream. Teams should have a good understanding of and visibility into the flow of work from the business all the way through to customers, including the status of products and features. Our research has found this has a positive impact on IT performance." Extrait de: Forsgren PhD. « Accelerate. » Cet article fait partie de la série “Accélérer le Delivery de projets de Machine Learning”, traitant de l’application d’Accelerate [1] dans un contexte incluant du Machine…

Lire la suite
Data

Comment optimiser un job Spark

Exemple de gain de temps sur un cas d’usage exemple Spark est aujourd’hui un outil incontournable pour le traitement de données volumineuses. Cette technologie s’est imposée comme la plus sollicitée et recommandée pour de nombreuses applications business en data engineering. La dynamique est d’ailleurs soutenue par les offres de services managés comme Databricks qui permettent de s’affranchir d’une partie des coûts liés à l’achat et à la maintenance d’un cluster de machines distribués pour le calcul.  Les fournisseurs de Cloud les plus importants proposent également…

Lire la suite
Accelerate

La gestion des données de tests en Delivery de Machine Learning

« […] successful teams had adequate test data to run their fully automated test suites and could acquire test data for running automated tests on demand. In addition, test data was not a limit on the automated tests they could run. » Extrait de: Forsgren PhD. « Accelerate. » Cet article fait partie de la série “Accélérer le Delivery de projets de Machine Learning” traitant de l’application du modèle Accelerate dans un contexte incluant du Machine Learning. Introduction Est-ce que vous avez déjà : Eu…

Lire la suite
Bonne pratique

Mise en production d’un projet de Machine Learning

Cet article propose d'explorer setuptools, Wheel et Docker afin de packager une application de Machine Learning pour détecter des muffins 🍪 ou des chihuhuas 🐶 dans une image, avec code a l'appui. Si packager du code de Machine Learning en Python est pour vous synonyme de demander à vos utilisateurs de cloner votre repository git sur leur machine, cet article devrait vous intéresser.

Lire la suite