spark

Bonne pratique

2021 chez OCTO : l’ultime rétro

L’année 2021 a été riche chez OCTO ! Comme beaucoup, le contexte nous a poussé à innover et à nous réinventer. Entre certifications, publications et événements digitaux, l’année a été remplie de challenges et de premières fois ! A travers cet article, nous offrons une ultime rétrospective de cette année placée sous le signe de l’intelligence collective. En parlant d’intelligence collective : on souhaite encore une fois la bienvenue aux équipes de BENEXT (product management, coaching agile, cloud, data science), dont on attend l’arrivée avec…

Lire la suite
Data

Comment optimiser un job Spark

Exemple de gain de temps sur un cas d’usage exemple Spark est aujourd’hui un outil incontournable pour le traitement de données volumineuses. Cette technologie s’est imposée comme la plus sollicitée et recommandée pour de nombreuses applications business en data engineering. La dynamique est d’ailleurs soutenue par les offres de services managés comme Databricks qui permettent de s’affranchir d’une partie des coûts liés à l’achat et à la maintenance d’un cluster de machines distribués pour le calcul.  Les fournisseurs de Cloud les plus importants proposent également…

Lire la suite
Archi & techno

Apache Spark, ai-je besoin d’autre chose ? – Compte rendu du talk de Benoit Meriaux à la Duck Conf 2019

Pourquoi Spark ? Dans tous les SI complexes, on a la nécessité d’effectuer des traitements sur un grand volume de données. La réponse traditionnelle est celle des batch de traitement, qui consiste à sélectionner un ensemble de données similaires via, par exemple, une requête SQL, puis d’effectuer les traitements en série sur chaque donnée. Ce modèle de traitement a l’avantage d’être simple. Néanmoins, il présente de sérieux inconvénients :

Lire la suite
Data

Machine Learning – 7 astuces pour scaler Python sur de grands datasets

Python est le langage privilégié chez les Data Scientists, notamment grâce à toutes ses librairies open-source et sa facilité de mise en production du code. Pourtant, à mesure que la volumétrie des données augmente, le passage à des paradigmes différents comme ceux de Spark et Hadoop est recommandé car plus scalable. Cependant, cela nécessite souvent de mettre en place une infrastructure et d’adapter son code. Voici quelques astuces qui permettent d’étendre l’utilité de Python pour des datasets de plusieurs gigaoctets dans un contexte mono-machine. 1…

Lire la suite
Archi & techno

#LaDuckConf 2019 : découvrez les premiers talks !

Vous êtes un·e habitué·e du blog OCTO ?  Et si vous veniez voir les auteurs des articles en conférence ? #LaDuckConf est la seule conférence tech consacrée à l'architecture de SI, dispensée en grande majorité par nos experts maison : 1 journée, 300 participants attendus Une dizaine de talks fondés sur des expériences terrain  Un line-up d’experts sur les architectures techniques, big data, DevOps. Découvrez les noms des premiers intervenants et les sujets de leurs talks. RDV le 29 janvier 2019, à L'Espace Saint Martin (Paris…

Lire la suite
Archi & techno

Spark + AI Summit Europe 2018

La semaine dernière, nous nous sommes rendus à Londres pour assister à la conférence de référence sur Apache Spark en Europe ; qui s’est pour l’occasion renommée en Spark + AI Summit. Au fur et à mesure des conférences, trois sujets majeurs ont émergé et nous ont permis de mieux appréhender l’évolution d’Apache Spark et la direction prise par le projet. TL;DR Premièrement, l’orientation prise par Databricks semble être un support de première classe pour les principaux frameworks Python de ML comme Tensorflow, Keras, PyTorch…

Lire la suite
Data

MythBuster: Apache Spark • Épisode 3: Génération de code à la volée

 A la fin de l’épisode précédent, nous étions capables d’exécuter une requête SQL à partir d’un plan d'exécution optimisé. Ce fut notamment l’occasion de plonger au coeur du moteur d’optimisation Catalyst. Nous allons à présent nous intéresser à une optimisation issue du moteur Tungsten, embarquée dans Spark dès la version 2.0, qui remet en cause ce Volcano Model, pourtant standard sur la plupart des SGBDR…

Lire la suite
Archi & techno

Compte rendu du Spark Summit 2017 (Dublin)

Les 25 et 26 Octobre derniers, nous nous sommes rendus à Dublin afin d’assister au Spark Summit, grand-messe incontournable du Big Data organisée chaque année en Europe et aux États-Unis par Databricks (la société fondée par les créateurs d’Apache Spark). De très nombreux intervenants de tous horizons (industriels, académiques, éditeurs, contributeurs, etc.) étaient au rendez-vous. Au total : plus de 1200 participants, deux journées de conférences, plus d’une centaine de talks (créneaux de 30 minutes) et jusqu’à six présentations en parallèle. Au bout du compte,…

Lire la suite
Évènement

Petit-déjeuner : Un éléphant qui se balançait … – jeudi 5 octobre 2017

Comment mettre en musique les big data et valoriser les données avec de nouveaux services. BNP Paribas viendra témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données. Un menu copieux pour cette rentrée des petits-déjeuner OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux…

Lire la suite