Big Data

Big Data

Confluent ksqlDB – gestion des traitements de flux – bénéfices et risques

L’écosystème Kafka peut s’avérer difficile à appréhender dans beaucoup de projets de delivery. KsqlDB offre une abstraction intéressante en permettant de consommer des flux de données en SQL, comme sur une base de données classique.  Cette simplification permet d’initier rapidement une nouvelle application sans connaissance préalable de la plateforme. Cet article parcourt les fonctionnalités des différents outils de l’écosystème Kafka, détaille KsqlDB et tente de répondre aux questions suivantes : Quelle valeur cet outil peut-il apporter ? Dans quel cas l’utiliser et ne pas l’utiliser ? Comment…

Lire la suite
Big Data

L’atelier matrice d’erreur : démystifier les performances du ML avec ses utilisateurs

Où placer le curseur : plus de faux négatifs ou plus de faux positifs ?

Nous pensons que la gestion des erreurs est un aspect important dans les systèmes de prise de décision et qu’il est indispensable d’étudier cela avec les utilisateurs d’un tel produit, a fortiori lorsqu’il embarque du Machine Learning. Dans cet article, nous vous proposons une méthode itérative, pour évaluer le coût d’une erreur et adapter le système de prise de décision, pour que ses utilisateurs aient plus confiance en lui. La data science proposant de nombreuses définitions que nous utiliserons dans cet article, voici un petit…

Lire la suite
Big Data

6 recommandations pour optimiser un job Spark

Exemple de gain de temps sur un cas d’usage exemple Spark est aujourd’hui un outil incontournable pour le traitement de données volumineuses. Cette technologie s’est imposée comme la plus sollicitée et recommandée pour de nombreuses applications business en data engineering. La dynamique est d’ailleurs soutenue par les offres de services managés comme Databricks qui permettent de s’affranchir d’une partie des coûts liés à l’achat et à la maintenance d’un cluster de machines distribués pour le calcul.  Les fournisseurs de Cloud les plus importants proposent également…

Lire la suite
Big Data

[WEBINARS] Data, Edge, Agilité & Delivery – Découvrez le programme !

OCTO vous présente Le Comptoir ! Le concept : 45 min dans la matinée, 20 min de présentation et 25 min d'échanges sur une thématique avec des experts OCTO en visioconférence. Venez nous voir, avec votre contexte, votre histoire, là où vous en êtes, les opportunités que vous avez identifiées et surtout avec vos contraintes et vos réflexions, nous laissons une grande part à l’échange et aux questions !   Mardi 08 juin, 9h15 - Le Comptoir Accelerate x Engie ACCELERATE COMME OUTIL DE GOUVERNANCE NUMÉRIQUE Par Vincent Derenty (Engie Digital) & Christian Fauré (OCTO Technology) Constituée d'une dizaine de plate-formes digitales, Engie Digital…

Lire la suite
Big Data

[WEBINAIRE] Live Academy : comment démocratiser l’utilisation des données dans votre organisation

OCTO Academy vous donne rendez-vous jeudi 27 mai pour un nouveau numéro du Live Academy consacré à la culture data.  Le webinaire sera animé par Nidhal Safta et Selima Masmoudi, Consultants OCTO Technology. Si les entreprises investissent aujourd'hui massivement dans la data, seule une minorité d’entre elles parviennent à déployer l'analytique à grande échelle. Il faut dire que disposer de données, même en grande quantité ne fait pas à lui seul le succès d'une stratégie data. Comme pour tout projet de transformation, l'enjeu est avant…

Lire la suite
Big Data

La gestion de versions en Delivery de Machine Learning

Cet article fait partie de la suite “Accélérer le Delivery de projets de Machine Learning” traitant de l’application du framework Accelerate dans un contexte incluant du Machine Learning. Lorsque l’on a des problèmes en production, sans machine à remonter dans le temps, notre seul espoir est d’avoir d’anciennes versions Introduction L’une des quatre métriques de performance que propose Accelerate est le temps moyen de correction d’un incident en production (Mean Time to Repair), il s’agit d’une métrique dont le suivi permet d’avoir une idée sur…

Lire la suite
Big Data

Rendre son code Python performant grâce au profiling

Dans ce REX, nous allons décrire comment nous sommes parvenus à diviser le temps d'exécution de notre application en Python, appelée MOMA, par 50 et stabiliser son empreinte mémoire à 200 Mo grâce au profiling. Notre application est un système de génération de fichiers binaires par traitement batch soumis à de fortes contraintes de performances (CPU & mémoire). Les fichiers binaires générés encodent des messages qui sont ensuite diffusés par satellite.

Lire la suite
Big Data

Plongez dans le grand jeu de données (ou comment constituer et gérer son dataset)

Un premier briefing Avant de commencer le grand plongeon, des définitions s’imposent : Jeu de données (ou dataset) : collection de données de même type, de préférence de même format et souvent accompagnées d'annotation Annotation : description du contenu de chacune des données d’un dataset. L’annotation des données est le processus d’étiquetage du contenu reconnaissable par un ordinateur. En fonction de la nature du problème, on indiquera le type de l’objet dans l’image, on peut également indiquer ses coordonnées ou d’autres attributs. Modèle de Machine…

Lire la suite
Big Data

Data+AI Summit 2020 – sois Zen dans ton lakehouse

Si tu as loupé la news, la semaine précédente a eu lieu le tant attendu, Data+AI Summit Europe, connu jusque là sous Spark+AI Summit. Comme l’année précédente, on a eu la chance d’y participer. Les organisateurs devraient publier les talks sous peu mais si tu ne peux plus attendre, voici un court résumé de ce qui s’y est passé du point de vue du data engineering. TL;DR Si tu te poses des questions sur le titre, il est là pour résumer les 2 annonces majeures…

Lire la suite