Data Science

Data Science

Rendre représentatif ce qu’on observe : l’exemple des données Twitter pour l’élection présidentielle 2022

Un article pour définir les bases méthodologiques à la construction d'un outil d'analyse de tendances cohérent à partir des données observées. Nous prendrons ensuite l'exemple du projet laVoixDesElections.fr pour apprécier l'importance de cette méthodologie dans l'analyse des données des réseaux sociaux

Lire la suite
Data Science

Modèle embarqué VS model as a service : quelle stratégie choisir ?

    Introduction Vous avez développé un super modèle de Machine Learning, les performances sont au top et il résout un vrai problème. Malheureusement, personne n’en aura jamais connaissance si vous ne le déployez pas en production. Votre modèle n’aura été qu’un POC parmi tant d’autres et ne créera jamais de valeur pour l’entreprise et pour vos utilisateurs. Il y a quelques années, alors que les modèles n’étaient que très rarement déployés en production, la question de l’exposition était souvent anecdotique. Avec la croissance grandissante…

Lire la suite
Data Science

Implémente moi un CNN

L’éco-système en Machine Learning et en particulier en Deep Learning s’est enrichi ces dernières années et les outils proposés sont de plus en plus haut niveau. Tant et si bien qu’il n’est plus toujours nécessaire d’avoir une connaissance approfondie des modèles pour mener à bien un projet de Data Science. Cette multitude de solutions a l’avantage de rendre le machine learning accessible à un plus grand nombre mais au détriment de la compréhension théorique. En effet, le Deep Learning n’est plus le domaine réservé des…

Lire la suite
Data Science

Rendre visible la chaîne de valeur dans un projet de Machine Learning Delivery

“Make the flow of work visible through the value stream. Teams should have a good understanding of and visibility into the flow of work from the business all the way through to customers, including the status of products and features. Our research has found this has a positive impact on IT performance." Extrait de: Forsgren PhD. « Accelerate. » Cet article fait partie de la série “Accélérer le Delivery de projets de Machine Learning”, traitant de l’application d’Accelerate [1] dans un contexte incluant du Machine…

Lire la suite
Data Science

La donnée synthétique 3D : Construire un dataset de ML labellisé rapidement

Obtenir un jeu de données pour l'entraînement de son modèle de machine learning dans un cas d'usage donné reste encore aujourd'hui très difficile. Beaucoup sont issus de travaux réalisés et mis à jour par des communautés (universitaires, centre de recherches, instituts spécialisés…) impliquant un coût non négligeable de collecte des données.

Lire la suite
Data Science

Visualisation scientifique 3D avec Streamlit, PyVista et Ipyvolume (partie 1)

Nous faisons beaucoup d’analyses exploratoires de données, avec leur lot de visualisations diverses. On en fait plus rarement en 3D, étant moins confrontés à ce type de données ; nous allons voir qu’il n’est pourtant pas très compliqué de réaliser des rendus simples mais jolis à voir et à manipuler, et la 3D fait toujours son petit effet. Nous vous proposons une paire d’articles détaillant la réalisation d’une application de visualisation de structures cristallines, prétexte au mariage de trois librairies : Streamlit pour l’application interactive,…

Lire la suite
Data Science

Green AI – les algorithmes en question

Les auteurs tiennent à remercier chaleureusement Benjamin Scellier, coauteur avec Yoshua Bengio de Equilibrium Propagation pour son temps, sa disponibilité et sa relecture attentive et bienveillante. Si on parle de sauvegarde de notre planète à un Data Scientist, il est probable qu’il s’imagine tout de suite utiliser son savoir pour développer des algorithmes capables d’optimiser l’utilisation de nos ressources ou bien de régler une bonne fois pour toute le problème du réchauffement climatique en le prenant pour ce qu’il est, un problème scientifique qu’il faut…

Lire la suite
Data Science

Comment l’IA peut-elle changer le recrutement ? (partie 3)

Dans la deuxième partie de l’article, nous avons vu une façon d’employer l'IA qui a le potentiel d’apporter la flexibilité nécessaire à une détection intelligente de mots-clés.  Dans cette troisième partie, nous allons vous présenter notre implémentation d’une solution de tri par mots-clés grâce à l’IA, ce que nous avons appris, les pistes que nous avons explorées et les challenges que nous avons rencontrés.

Lire la suite
Data Science

L’atelier matrice d’erreur : démystifier les performances du ML avec ses utilisateurs

Où placer le curseur : plus de faux négatifs ou plus de faux positifs ?

Nous pensons que la gestion des erreurs est un aspect important dans les systèmes de prise de décision et qu’il est indispensable d’étudier cela avec les utilisateurs d’un tel produit, a fortiori lorsqu’il embarque du Machine Learning. Dans cet article, nous vous proposons une méthode itérative, pour évaluer le coût d’une erreur et adapter le système de prise de décision, pour que ses utilisateurs aient plus confiance en lui. La data science proposant de nombreuses définitions que nous utiliserons dans cet article, voici un petit…

Lire la suite