Data Science

Data Science

Prise en main de MLflow, un outil pour tracer les résultats de vos expériences

Dans la tendance de l’industrialisation de la data science, une douleur importante est de garder la trace des expérimentations menées. C’est-à-dire tracer les résultats obtenus avec une version du jeu de données, un type de modèle et un set de méta-paramètres. Le graal est peut-être de faire comme Facebook : des modèles de modèles. Mais avant d’atteindre cela, encore faut-il collecter les données et s’en servir pour suivre les résultats. Pour répondre à cet enjeu de collecte de données en lien avec les expérimentations, il…

Lire la suite
Data Science

Machine Learning – 7 astuces pour scaler Python sur de grands datasets

Python est le langage privilégié chez les Data Scientists, notamment grâce à toutes ses librairies open-source et sa facilité de mise en production du code. Pourtant, à mesure que la volumétrie des données augmente, le passage à des paradigmes différents comme ceux de Spark et Hadoop est recommandé car plus scalable. Cependant, cela nécessite souvent de mettre en place une infrastructure et d’adapter son code. Voici quelques astuces qui permettent d’étendre l’utilité de Python pour des datasets de plusieurs gigaoctets dans un contexte mono-machine. 1…

Lire la suite
Data Science

On entend beaucoup de choses sur l’architecture de SI…

...mais on a rarement des réponses claires aux questions qu’on se pose ! La Duck Conf est faite pour ça ; pour partager et explorer des sujets pratiques, techniques, incontournables, qui nous font aimer l’archi. A commencer par les grands classiques : que faire du legacy ? Ou plus récemment, comment je me mets en conformité avec le RGPD ?... En s’attaquant à des sujets techniques pointus, comme celui des transactions distribuées en environnement microservices. Sans oublier de se faire plaisir avec des domaines plus…

Lire la suite
Data Science

Compte-Rendu de Matinale : Levez la malédiction du passage de l’IA en production

Jeudi 29 novembre, l’équipe Big Data Analytics, en charge des sujets d'Intelligence Artificielle à OCTO Technology, a présenté au cours d'une Matinale sa vision de l'industrialisation de l'IA (voir la vidéo de la Matinale, obtenir les slides). L’IA, actuellement portée par la hype, est un buzzword qui veut souvent dire tout et n’importe quoi. Data scientists, métiers, marketing, utilisateurs, etc. chacun y va de sa définition. Nos clients se retrouvent avec des POCs d’applications d’IA sans fin qui peinent à être industrialisés et à être intégrés dans…

Lire la suite
Data Science

Les intervalles de prédiction

Dans le cadre de l’apprentissage supervisé, un modèle de régression permet d’inférer la valeur associée à une observation à partir d’exemples. Prosaïquement, on cherche à prédire le comportement moyen d’une variable cible Y à partir des variables explicatives X décrivant les observations. C’est l'espérance de Y sachant X, notée E[Y|X]. Est-il possible d’aller chercher plus d’information que le seul comportement moyen à partir d’un modèle de prédiction ? Peut-on quantifier l’erreur de notre modèle dans ses prédictions ? Pour illustrer la réponse à ces questions…

Lire la suite
Data Science

Spark + AI Summit Europe 2018

La semaine dernière, nous nous sommes rendus à Londres pour assister à la conférence de référence sur Apache Spark en Europe ; qui s’est pour l’occasion renommée en Spark + AI Summit. Au fur et à mesure des conférences, trois sujets majeurs ont émergé et nous ont permis de mieux appréhender l’évolution d’Apache Spark et la direction prise par le projet. TL;DR Premièrement, l’orientation prise par Databricks semble être un support de première classe pour les principaux frameworks Python de ML comme Tensorflow, Keras, PyTorch…

Lire la suite
Data Science

L’optimisation bayésienne par l’exemple : à quoi ça sert et comment ça marche ?

“Si j’ai une valeur y qui est fonction de x, comment faire pour déterminer la valeur de x minimisant ou maximisant la valeur de y ?” tel est le problème de base du domaine de l’optimisation, qui se décline à de très nombreux cas d’usage allant de “comment fixer le prix pour maximiser un profit” à “quelle stratégie mon robot doit-il adopter pour rester en équilibre”. Nous vous proposons dans cet article une introduction aux stratégies d’optimisation bayésienne, un sous-domaine regroupant des techniques très puissantes…

Lire la suite
Data Science

Des réseaux de neurones pour générer des discours politiques

Cet article est le premier d’une série sur les réseaux récurrents. Nous les introduisons ici en jouant avec du texte. Dans un prochain article, nous entrerons dans les arcanes des LSTM, avant d’exposer leur utilisation avancée sur des données de capteurs connectés. Êtes-vous nostalgiques de la période électorale ? Les grandes envolées lyriques de nos personnalités publiques vous manquent-elles ? Eh bien, rassurez vous ! À la fin de cet article, vous saurez construire un générateur intarissable de discours politiques. Pour générer ces textes, nous…

Lire la suite
Data Science

La vision des OCTOs pour les 5 à 10 prochaines années

En ce début d’année 2018, nous avons demandé à quelques Octos comment ils prévoient l’évolution de leur métier, des technologies, les ruptures, les nouvelles approches, etc. C’est un exercice de style qui ne prétend pas nécessairement dire le vrai, mais qui a le mérite de présenter certaines convictions et d’inviter au débat. Partagez avec nous vos réactions et analyses, en réagissant à cet article ! Les plateformes cloud comme nouveaux runtimes Variables, disques et machines seront dépassés comme l’ont été les pointeurs, bandes et architectures…

Lire la suite
Data Science

Comparatif des moteurs de chatbot

Si vous souhaitez développer votre propre chatbot textuel ou vocal, vous serez confrontés à la question suivante : quel moteur de langage naturel choisir selon mes contraintes et exigences. Nous proposons de vous partager notre avis sur cinq des moteurs de langage naturel les plus répandus actuellement : Luis.ai Dialogflow (anciennement api.ai) Wit.ai Recast.ai Lex Watson Ce comparatif a été réalisé de manière indépendante. OCTO n’a aucun accord ou partenariat avec les acteurs cités. Ces moteurs évoluent très vites, il est donc important de revoir…

Lire la suite