spark

Archi & techno

#LaDuckConf 2019 : découvrez les premiers talks !

Vous êtes un·e habitué·e du blog OCTO ?  Et si vous veniez voir les auteurs des articles en conférence ? #LaDuckConf est la seule conférence tech consacrée à l'architecture de SI, dispensée en grande majorité par nos experts maison : 1 journée, 300 participants attendus Une dizaine de talks fondés sur des expériences terrain  Un line-up d’experts sur les architectures techniques, big data, DevOps. Découvrez les noms des premiers intervenants et les sujets de leurs talks. RDV le 29 janvier 2019, à L'Espace Saint Martin (Paris…

Lire la suite
Archi & techno

Spark + AI Summit Europe 2018

La semaine dernière, nous nous sommes rendus à Londres pour assister à la conférence de référence sur Apache Spark en Europe ; qui s’est pour l’occasion renommée en Spark + AI Summit. Au fur et à mesure des conférences, trois sujets majeurs ont émergé et nous ont permis de mieux appréhender l’évolution d’Apache Spark et la direction prise par le projet. TL;DR Premièrement, l’orientation prise par Databricks semble être un support de première classe pour les principaux frameworks Python de ML comme Tensorflow, Keras, PyTorch…

Lire la suite
Big Data

MythBuster: Apache Spark • Épisode 3: Génération de code à la volée

 A la fin de l’épisode précédent, nous étions capables d’exécuter une requête SQL à partir d’un plan d'exécution optimisé. Ce fut notamment l’occasion de plonger au coeur du moteur d’optimisation Catalyst. Nous allons à présent nous intéresser à une optimisation issue du moteur Tungsten, embarquée dans Spark dès la version 2.0, qui remet en cause ce Volcano Model, pourtant standard sur la plupart des SGBDR…

Lire la suite
Archi & techno

Compte rendu du Spark Summit 2017 (Dublin)

Les 25 et 26 Octobre derniers, nous nous sommes rendus à Dublin afin d’assister au Spark Summit, grand-messe incontournable du Big Data organisée chaque année en Europe et aux États-Unis par Databricks (la société fondée par les créateurs d’Apache Spark). De très nombreux intervenants de tous horizons (industriels, académiques, éditeurs, contributeurs, etc.) étaient au rendez-vous. Au total : plus de 1200 participants, deux journées de conférences, plus d’une centaine de talks (créneaux de 30 minutes) et jusqu’à six présentations en parallèle. Au bout du compte,…

Lire la suite
Évènement

Petit-déjeuner : Un éléphant qui se balançait … – jeudi 5 octobre 2017

Comment mettre en musique les big data et valoriser les données avec de nouveaux services. BNP Paribas viendra témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données. Un menu copieux pour cette rentrée des petits-déjeuner OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux…

Lire la suite
Big Data

MythBuster: Apache Spark • Épisode 2: Planification et exécution d’une requête SQL

Nous poursuivons aujourd'hui notre série d'articles dédiée à la démystification de Spark et plus particulièrement au moteur d'exécution Tungsten. Pour rappel, dans l'épisode précédent, nous sommes partis d'une requête SQL sous forme de String que nous avons d'abord découpée en une instance de Seq[Token] grâce à notre classe Lexer, puis en une instance d'AST grâce à notre classe Parser. L'arbre formé par l'AST obtenu en sortie permet d'avoir une structure avec laquelle il est relativement simple d'intéragir au travers de notre code. Dans cet épisode,…

Lire la suite
Big Data

Retours de Strata + Hadoop World 2016 – Partie 2

Bienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming...), rendez-vous sur la première partie de cet article. Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée…

Lire la suite