Data

Data

Plongez dans le grand jeu de données (ou comment constituer et gérer son dataset)

Un premier briefing Avant de commencer le grand plongeon, des définitions s’imposent : Jeu de données (ou dataset) : collection de données de même type, de préférence de même format et souvent accompagnées d'annotation Annotation : description du contenu de chacune des données d’un dataset. L’annotation des données est le processus d’étiquetage du contenu reconnaissable par un ordinateur. En fonction de la nature du problème, on indiquera le type de l’objet dans l’image, on peut également indiquer ses coordonnées ou d’autres attributs. Modèle de Machine…

Lire la suite
Data

Data+AI Summit 2020 – sois Zen dans ton lakehouse

Si tu as loupé la news, la semaine précédente a eu lieu le tant attendu, Data+AI Summit Europe, connu jusque là sous Spark+AI Summit. Comme l’année précédente, on a eu la chance d’y participer. Les organisateurs devraient publier les talks sous peu mais si tu ne peux plus attendre, voici un court résumé de ce qui s’y est passé du point de vue du data engineering. TL;DR Si tu te poses des questions sur le titre, il est là pour résumer les 2 annonces majeures…

Lire la suite
Data

CR du comptoir : Les nouvelles topologies du cloud

Jeudi dernier s’est tenu un nouvel épisode des comptoirs OCTO, des rendez-vous bi-mensuels, désormais incontournables que les expertes et experts OCTO vous donnent. Un moment d’échange et de partage, surtout en ces moments difficiles de confinement et de Covid. Stay home, safe and with OCTO ;) Sujet de ce jeudi, les nouvelles topologies du Cloud, par Meriem CTO d’OCTO et Arthur, lead des pratiques Cloud chez OCTO.

Lire la suite
Data

Le Système d’Information Héréditaire : l’évolution par la transmission du patrimoine identitaire

Beaucoup d’entreprises partagent maintenant l’idée que pour rester compétitives, la donnée est un élément clef. Il y a quelques années, le Big Data était le nouvel Eldorado : les données ont d’abord été rangées dans des Data Warehouses, construits principalement pour alimenter les activités de Business Intelligence. Puis lorsque de nouveaux cas d’usages ont commencé à émerger, les solutions de stockage ont évolué vers des architectures de type Data Lake qui pouvaient accueillir de la données sous plus de formes. De nouvelles technologies sont apparues…

Lire la suite
Data

La Data en entreprise : une question culturelle ?

“Je suis Dominique, Chief Data Officer d’un groupe de distribution français. Mon rôle est de mettre en place différents dispositifs pour fournir à  mes collègues tout un tas de données leur permettant de réfléchir, de prendre des décisions et d’agir plus finement et plus précisément que par le passé. Laissez-moi vous raconter deux anecdotes pour illustrer l’importance des données recueillies dans notre organisation… La semaine dernière, un client a refusé de donner son code postal à la caisse du magasin au moment de payer ses…

Lire la suite
Data

Deep Learning à l’échelle : mieux annoter pour mieux scaler

Après quelques mois d’exploration et autres proofs of concept, notre restitution devant le sponsor fait un carton ! On a fait un PoC d’une architecture de réseaux de neurones à l’état de l’art pour détecter des défauts de fabrication sur des objets à partir d'images. Pour y arriver, on a conçu une application Python pour servir ce modèle de deep learning, et on a déployé le tout sur un serveur de démonstration, branché à un écran de restitution et une caméra, au 2e étage de…

Lire la suite
Data

Sortir de sa bulle : diversifier les recommandations d’offres culturelles

Au cours des dernières décennies, avec l'essor de Youtube, Amazon, Netflix et de nombreux autres services Web de ce type, les systèmes de recommandation ont pris de plus en plus d’ampleur et de place dans nos vies. Du e-commerce (proposer aux acheteurs des articles qui pourraient les intéresser) à la publicité en ligne (proposer aux utilisateurs les bons contenus, en fonction de leurs préférences), les systèmes de recommandation sont aujourd'hui incontournables dans nos parcours quotidiens en ligne.

Lire la suite
Data

REX : Refactoring d’un modèle de Machine Learning

L'industrialisation de l'IA s'impose aujourd'hui comme l'un des enjeux majeurs pour les entreprises qui souhaitent l'intégrer dans leurs écosystèmes : en effet, seulement 13% des projets IA make it to production ! Et qui dit industrialisation dit mise en production !  Pourtant, à une époque pas si lointaine, parler d'algorithme de ML était souvent synonyme d'obscures explorations de data scientists et d'artefacts incompréhensibles à ne surtout pas toucher une fois livrés en production. Heureusement, les choses ont changé et des pratiques pour mettre en production…

Lire la suite
Data

Apache Kafka 101

Introduction Apache Kafka est une plateforme distribuée de streaming de données. Il est essentiellement utilisé comme un broker de messages (bus de messages). Il a été conçu pour des objectifs de performance (millions de messages par seconde) et de résilience (tolérance à la panne). On doit le nom Kafka à Jay Kreps (co-fondateur) et son admiration pour l’écrivain de langue Allemande Franz Kafka qu’il considère comme “un système optimisé d’écriture”. Dans une série d’articles, on va vous présenter les fonctionnalités d’Apache Kafka et comment il…

Lire la suite
Data

Deux ans de RGPD @OCTO

Premier semestre 2018 : branle-bas de combat pour se mettre en conformité avec le RGPD. L’équipe projet a mis votre entreprise en conformité et identifié une liste de points à corriger. Deuxième semestre 2018 : le soufflé retombe. La liste à la prévert des préconisations serait-elle tombée aux oubliettes ?  C’est un scénario réaliste si vous vous étiez constitués en mode projet. Dans notre entreprise, pour éviter cette situation, nous avons constitué une équipe de personnes motivées, avec un sponsor interne et du temps dédié.…

Lire la suite