Big Data

Big Data

Calibration de probabilité

Dans un article traitant des intervalles de prédiction, nous avions abordé une technique de mesure d’incertitude en régression. Qu’en est-il de cette mesure pour l’autre pan de l’apprentissage supervisé : la classification ? En classification aussi, il convient de pouvoir maîtriser le niveau de confiance dans la sortie des modèles. Prenons l’exemple canonique de la classification binaire des tumeurs (maligne / bénigne) en fonction de leur taille. On aimerait pouvoir affirmer que si la probabilité en sortie est 0.3, on a effectivement un risque de…

Lire la suite
Big Data

Interview du Datalab de BNPP PF : Construisez votre plateforme de datascience interne !

Le 10 mai dernier, nous sommes allés interviewer Jérémie Guez, Responsable du Data Lab de BNP Paribas Personal Finance sur le site de Unicity à Levallois. Construire sa propre plateforme de data science…? Eux, ils l’ont fait ! Elle s’appelle Sparrow. OCTO a réalisé le premier POC de son architecture. Depuis, ça a généré plusieurs pratiques auxquelles OCTO croit et souhaite mettre en valeur sur son Blog.   Retour sur son interview : Bonjour Jérémie, avant de commencer peux-tu te présenter ? Bonjour, Jérémie Guez, Responsable…

Lire la suite
Big Data

L’IA embarquée : entraîner, déployer et utiliser du Deep Learning sur un Raspberry (Partie 3)

Dans cette série d’article, on se propose d’étudier le cas d’usage de reconnaissance de dessins grâce à un raspberry. L’idée est d’utiliser la caméra d’un raspberry pour capturer une image représentant un dessin, et déterminer grâce à un réseau de neurones s’il s’agit d’une voiture ou non. Dans un premier article, on a entraîné un réseau de neurones performant à l’aide du framework Keras. Le second article porte sur le déploiement maîtrisé du modèle dans un environnement de production. Il ne nous reste plus qu’à…

Lire la suite
Big Data

Un an de RGPD @ OCTO

RGPD @ OCTO

Il y a un an, nous recevions tous une avalanche de mise à jour de nos CGV ou CGU. Il y a un an, le règlement général sur la protection des données (RGPD) entrait en vigueur et faisait la une. Il y a un an aussi, plusieurs d’entre nous découvraient ce qu’était une donnée personnelle : “Est-ce que je dois effacer de mon agenda tous les rendez-vous passés car ils contiennent le nom et les coordonnées des invités ?” “Les traitements exploratoires en datascience, c’est…

Lire la suite
Big Data

L’IA embarquée : entraîner, déployer et utiliser du Deep Learning sur un Raspberry (Partie 2)

Dans cette série d’articles, on se propose d’étudier le cas d’usage de reconnaissance de dessins grâce à un Raspberry. L’idée est d’utiliser la caméra d’un Raspberry pour capturer une image représentant un dessin, et déterminer grâce à un réseau de neurones s’il s’agit d’une voiture ou non. Dans un premier article, on a entraîné un réseau de neurones performant à l’aide du framework Keras. Le résultat est un objet Python - le modèle - sauvegardé en format .h5. Comment faire pour l’utiliser sur un Raspberry…

Lire la suite
Big Data

L’IA embarquée : entraîner, déployer et utiliser du Deep Learning sur un Raspberry (Partie 1)

Pour la deuxième année consécutive, OCTO Technology prend part à la course Iron Car avec son équipage Octonomous. Pour rappel, le but de la compétition est de réaliser trois tours de circuit avec une voiture de taille réduite le plus rapidement possible. Bien entendu, la voiture n’est pas radiocommandée ; une des règles de la compétition est précisément d’utiliser un réseau de neurones pour le pilotage de la voiture ! Le matériel autorisé, outre la voiture, est composé d’un Raspberry Pi et de sa caméra…

Lire la suite
Big Data

Apache Spark, ai-je besoin d’autre chose ? – Compte rendu du talk de Benoit Meriaux à la Duck Conf 2019

Pourquoi Spark ? Dans tous les SI complexes, on a la nécessité d’effectuer des traitements sur un grand volume de données. La réponse traditionnelle est celle des batch de traitement, qui consiste à sélectionner un ensemble de données similaires via, par exemple, une requête SQL, puis d’effectuer les traitements en série sur chaque donnée. Ce modèle de traitement a l’avantage d’être simple. Néanmoins, il présente de sérieux inconvénients :

Lire la suite
Big Data

Construire un moteur de recherche avec DataStax

Introduction Comment construire un moteur de recherche qui rassemble ergonomie, performance et pertinence ? Cette question, nous nous la sommes posée dans le cadre d'un de nos projets. Le Product Owner nous a naïvement exprimé sa volonté d'avoir un moteur de recherche “à la Google” : un outil qui répond aux besoins de l'utilisateur sans aucune connaissance technique ou fonctionnelle préalable, avec une évaluation ludique de son contexte pour lui proposer des résultats pertinents. Une équation complexe qui demande avant toute implémentation une réflexion sur…

Lire la suite
Big Data

La Duck Conf 2019 – Découvrez le programme !

Cette année encore, #LaDuckConf vous propose de faire le tour de la question de l'architecture de SI. Sujets incontournables pour vos entreprises (monolithe, microservices, GDPR) ou domaines de pointe (datalab, blockchain, etc.) ; nous vous avons concocté un programme aussi complet que surprenant pour accompagner votre quotidien, et ravir vos cellules grises ! Venez vous inspirer d'une dizaine de talks et REX concrets de nos experts OCTO, nos clients, mais également de notre invité mystère*... Rejoignez la communauté de passionnés d'archi le 29 janvier, à…

Lire la suite
Big Data

Machine Learning – 7 astuces pour scaler Python sur de grands datasets

Python est le langage privilégié chez les Data Scientists, notamment grâce à toutes ses librairies open-source et sa facilité de mise en production du code. Pourtant, à mesure que la volumétrie des données augmente, le passage à des paradigmes différents comme ceux de Spark et Hadoop est recommandé car plus scalable. Cependant, cela nécessite souvent de mettre en place une infrastructure et d’adapter son code. Voici quelques astuces qui permettent d’étendre l’utilité de Python pour des datasets de plusieurs gigaoctets dans un contexte mono-machine. 1…

Lire la suite