Publications de Arthur Baudry

Data

Confluent.io: Part 3 – STREAM PROCESSING

This article is part of a series designed to demonstrate the setup and use of the Confluent Platform. In this series, our goal is to build an end to end data processing pipeline with Confluent. Disclaimer: While knowledge of Kafka internals is not required to understand this series, it can sometimes help clear out some parts of the articles. In the previous articles, we set up two topics, one to publish the input data coming from PostgreSQL and another one to push the data from…

Lire la suite
Data

Confluent.io – Part 2: BUILD A STREAMING PIPELINE

This article is part of a series designed to demonstrate the setup and use of the Confluent Platform. In this series, our goal is to build an end to end data processing pipeline with Confluent. Disclaimer: While knowledge of Kafka internals is not required to understand this series, it can sometimes help clear out some parts of the articles. BASICS If you have gone through every step from our previous article, you should have a Kafka broker running along with Zookeeper and Control Center. Now,…

Lire la suite
Data

Confluent.io – Part 1: INTRODUCTION & SETUP

This article is part of a series designed to demonstrate the setup and use of the Confluent Platform. In this series, our goal is to build an end to end data processing pipeline with Confluent. Disclaimer: While knowledge of Kafka internals is not required to understand this series, it can sometimes help clear out some parts of the articles. INTRODUCTION Let’s begin with these two questions: what is the Confluent Platform and why use it? What? The Confluent Platform is a data streaming platform built…

Lire la suite
Data

Retours de Strata + Hadoop World 2016 – Partie 2

Bienvenue dans la deuxième partie de notre compte-rendu de la conférence Strata + Hadoop World 2016. Si vous êtes intéressés par des retours d’expérience de production (Kafka, Spark, Hadoop, architecture Kappa, Docker, etc.) ou par les technologies de streaming (Apache Beam, Kafka Streams, Samza, Spark Streaming...), rendez-vous sur la première partie de cet article. Ici, nous allons nous concentrer sur les autres technologies abordées pendant les sessions que nous avons suivies (Apache Nifi, Apache Drill, GPU, Hadoop Recordservice…), sur les sujets liées à la donnée…

Lire la suite
Data

Retours de Strata + Hadoop World 2016 – Partie 1

La conférence Strata + Hadoop World avait lieu à Londres du 2 au 3 juin. L’événement était co-organisé par O'Reilly et Cloudera et les sujets de prédilection des talks étaient bien sûr tous liés au Big Data et à la Datascience. Octo était présent sur place et nous en avons profité pour vous faire un compte rendu des talks auxquels nous avons assistés. Nous proposons de découper ce compte-rendu en deux parties. Dans ce premier article, nous nous focaliserons les retour d’expériences de technologies en…

Lire la suite