Big Data

Big Data

Apache Kafka 101

Introduction Apache Kafka est une plateforme distribuée de streaming de données. Il est essentiellement utilisé comme un broker de messages (bus de messages). Il a été conçu pour des objectifs de performance (millions de messages par seconde) et de résilience (tolérance à la panne). On doit le nom Kafka à Jay Kreps (co-fondateur) et son admiration pour l’écrivain de langue Allemande Franz Kafka qu’il considère comme “un système optimisé d’écriture”. Dans une série d’articles, on va vous présenter les fonctionnalités d’Apache Kafka et comment il…

Lire la suite
Big Data

Deux ans de RGPD @OCTO

Premier semestre 2018 : branle-bas de combat pour se mettre en conformité avec le RGPD. L’équipe projet a mis votre entreprise en conformité et identifié une liste de points à corriger. Deuxième semestre 2018 : le soufflé retombe. La liste à la prévert des préconisations serait-elle tombée aux oubliettes ?  C’est un scénario réaliste si vous vous étiez constitués en mode projet. Dans notre entreprise, pour éviter cette situation, nous avons constitué une équipe de personnes motivées, avec un sponsor interne et du temps dédié.…

Lire la suite
Big Data

Interprétabilité des systèmes de data science

En mission, nous rencontrons de plus en plus des besoins d'interprétabilité. Ce changement est dû à une évolution de la maturité des organisations sur la data science. En caractérisant un peu le trait, hier les projets de data science étaient surtout marketing (Ex : prédiction d'appétence ou d’attrition à des fins de ciblage). Ils étaient faits à partir de données versées dans un datalake avec des processus plus ou moins maîtrisés. Ces données étaient manipulées et transformées de manière plus ou moins rigoureuse. L’objectif principal…

Lire la suite
Big Data

SPARK + AI Summit Europe 2019

Introduction   Les 16 & 17 Octobre 2019, nous sommes rendus à Amsterdam afin d’assister à la conférence annuelle organisée par Databricks, le Spark+AI Summit, événement devenu incontournable dans le monde du Big data et de l’IA. Cette année, ce sont plus de 2300 personnes qui ont fait le déplacement pour assister à de nombreuses présentations réparties sur 11 tracks en parallèle. Autant dire que les sujets étaient très denses et nous allons tenter de vous partager l’essentiel de ce qui a retenu notre attention.…

Lire la suite
Big Data

Créer une web-app interactive en 10min avec Streamlit

Dans un projet de Machine Learning, il y a souvent besoin de visualiser les données sous forme de graphes, que ce soit lors d’une phase exploratoire ou pour montrer les résultats d’une modélisation. Force est de constater qu’intégrer ces graphes à une web-app n’est pas forcément aisé, puisque les outils existants nécessitent pour  la plupart quelques connaissances front-end, Dash par exemple. Et si nous pouvions faire tout ceci en Python, en 10 minutes ? C’est ce que nous allons voir avec Streamlit, une nouvelle librairie…

Lire la suite
Big Data

La confiance des utilisateurs dans les systèmes impliquant de l’Intelligence Artificielle

Avec le développement de l’IA, de nombreuses questions sociétales ont émergé : éthique, biais, et dilemmes de l’IA sont des notions fréquemment abordées. Et les réponses à ces questions seront des facteurs essentiels, entend-on souvent, de notre confiance dans les algorithmes de machine-learning qui gouverneront bientôt le monde :-) C’est sans doute vrai, mais la question de la confiance dans les systèmes d'IA ne doit pas être limitée à ces problématiques éthiques. Outre le fait qu’elles dépassent la simple notion de confiance, les réponses à de…

Lire la suite
Big Data

Les réseaux de neurones récurrents : des RNN simples aux LSTM

Les réseaux de neurones constituent aujourd'hui l'état de l'art pour diverses tâches d'apprentissage automatique. Ils sont très largement utilisés par exemple dans les domaines de la vision par ordinateur (classification d'images, détection d'objets, segmentation…) et du traitement automatique du langage (traduction automatique, reconnaissance vocale, modèles de langage…). Dans un précédent article, nous avons utilisé une classe particulière de réseaux de neurones, les RNN : Recurrent Neural Networks. Cette famille de modèles, particulièrement adaptée aux données séquentielles, nous a permis de générer automatiquement, caractère par caractère,…

Lire la suite
Big Data

Calibration de probabilité

Dans un article traitant des intervalles de prédiction, nous avions abordé une technique de mesure d’incertitude en régression. Qu’en est-il de cette mesure pour l’autre pan de l’apprentissage supervisé : la classification ? En classification aussi, il convient de pouvoir maîtriser le niveau de confiance dans la sortie des modèles. Prenons l’exemple canonique de la classification binaire des tumeurs (maligne / bénigne) en fonction de leur taille. On aimerait pouvoir affirmer que si la probabilité en sortie est 0.3, on a effectivement un risque de…

Lire la suite
Big Data

Interview du Datalab de BNPP PF : Construisez votre plateforme de datascience interne !

Le 10 mai dernier, nous sommes allés interviewer Jérémie Guez, Responsable du Data Lab de BNP Paribas Personal Finance sur le site de Unicity à Levallois. Construire sa propre plateforme de data science…? Eux, ils l’ont fait ! Elle s’appelle Sparrow. OCTO a réalisé le premier POC de son architecture. Depuis, ça a généré plusieurs pratiques auxquelles OCTO croit et souhaite mettre en valeur sur son Blog.   Retour sur son interview : Bonjour Jérémie, avant de commencer peux-tu te présenter ? Bonjour, Jérémie Guez, Responsable…

Lire la suite
Big Data

L’IA embarquée : entraîner, déployer et utiliser du Deep Learning sur un Raspberry (Partie 3)

Dans cette série d’article, on se propose d’étudier le cas d’usage de reconnaissance de dessins grâce à un raspberry. L’idée est d’utiliser la caméra d’un raspberry pour capturer une image représentant un dessin, et déterminer grâce à un réseau de neurones s’il s’agit d’une voiture ou non. Dans un premier article, on a entraîné un réseau de neurones performant à l’aide du framework Keras. Le second article porte sur le déploiement maîtrisé du modèle dans un environnement de production. Il ne nous reste plus qu’à…

Lire la suite