Big Data

Big Data

Préparez-vous, les messages de ce talk ne vous seront pas délivrés exactly-once – Compte-rendu du talk de Augustin Grimprel à La Duck Conf 2018

Lorsque l’on utilise un bus de message (MOM) la garantie de de livraison est un élément clé. La plupart des bus de messages supportent les modes "At Most One", "At Least One" et "Exactly Once", cela englobe les produits ActiveMQ, RabbitMQ ou très en vogue en ce moment, Kafka !

Lire la suite
Big Data

Big Data : Guide de survie des architectes – Compte-rendu du talk de Meriem Berkane & Bastien Fiorentino à La Duck Conf 2018

Appuyé sur de nombreux retours d’expériences et anecdotes récoltées sur le terrain, ce guide de survie des architectes édition Big Data nous donne des clefs pour appréhender cet écosystème riche et éviter les écueils les plus importants. Tout commence avec un besoin métier, besoin qui justifie la technique, et pas l’inverse.

Lire la suite
Big Data

La vision des OCTOs pour les 5 à 10 prochaines années

En ce début d’année 2018, nous avons demandé à quelques Octos comment ils prévoient l’évolution de leur métier, des technologies, les ruptures, les nouvelles approches, etc. C’est un exercice de style qui ne prétend pas nécessairement dire le vrai, mais qui a le mérite de présenter certaines convictions et d’inviter au débat. Partagez avec nous vos réactions et analyses, en réagissant à cet article ! Les plateformes cloud comme nouveaux runtimes Variables, disques et machines seront dépassés comme l’ont été les pointeurs, bandes et architectures…

Lire la suite
Big Data

MythBuster: Apache Spark • Épisode 3: Génération de code à la volée

 A la fin de l’épisode précédent, nous étions capables d’exécuter une requête SQL à partir d’un plan d'exécution optimisé. Ce fut notamment l’occasion de plonger au coeur du moteur d’optimisation Catalyst. Nous allons à présent nous intéresser à une optimisation issue du moteur Tungsten, embarquée dans Spark dès la version 2.0, qui remet en cause ce Volcano Model, pourtant standard sur la plupart des SGBDR…

Lire la suite
Big Data

Compte rendu du Spark Summit 2017 (Dublin)

Les 25 et 26 Octobre derniers, nous nous sommes rendus à Dublin afin d’assister au Spark Summit, grand-messe incontournable du Big Data organisée chaque année en Europe et aux États-Unis par Databricks (la société fondée par les créateurs d’Apache Spark). De très nombreux intervenants de tous horizons (industriels, académiques, éditeurs, contributeurs, etc.) étaient au rendez-vous. Au total : plus de 1200 participants, deux journées de conférences, plus d’une centaine de talks (créneaux de 30 minutes) et jusqu’à six présentations en parallèle. Au bout du compte,…

Lire la suite
Big Data

MythBuster: Apache Spark • Épisode 2: Planification et exécution d’une requête SQL

Nous poursuivons aujourd'hui notre série d'articles dédiée à la démystification de Spark et plus particulièrement au moteur d'exécution Tungsten. Pour rappel, dans l'épisode précédent, nous sommes partis d'une requête SQL sous forme de String que nous avons d'abord découpée en une instance de Seq[Token] grâce à notre classe Lexer, puis en une instance d'AST grâce à notre classe Parser. L'arbre formé par l'AST obtenu en sortie permet d'avoir une structure avec laquelle il est relativement simple d'intéragir au travers de notre code. Dans cet épisode,…

Lire la suite
Big Data

Visualiser de volumineux flux de données: un problème de transports publics

Les entreprises de transports publics mettent chaque jour à disposition de plus en plus de données. Certaines ont franchi le pas et ouvrent leurs systèmes d’information et exposent même des flux de données en temps réels, comme par exemple les CFF en Suisse, la RATP à Paris ou les TPG à Genève). Des horizons s’ouvrent pour de nouvelles  expériences! Ces entreprises publient aussi les horaires de tous leurs trajets. En Suisse, l’Union des Transports Publics donne ainsi accès aux horaires des trains, bus, tramways, bateaux…

Lire la suite