Retour sur la SRECon EMEA 2023

le 06/11/2023 par Adrien Saunier
Tags: Cloud & Platform, SRE

Roberto, Hong Viet et Adrien

Les 10, 11 et 12 octobre dernier se tenait l’édition EMEA (Europe/Middle East/Africa) de la conférence SRE Con, organisée comme l’année dernière par Usenix. Comme le nom le laisse supposer, cette conférence rassemble les praticiens du Site Reliability Engineering (SRE) pour partager conseils, réflexions et retour d’expérience sur la gestion de système en production.

Et comme l’année dernière, avec quelques octos (Roberto Duarte, Ha Hong Viet Le et moi-même, Adrien Saunier) nous nous sommes rendus sur place pour couvrir ce rendez-vous incontournable.

Site Reliability Engineering ?

Si une partie de votre activité quotidienne consiste à développer une ou plusieurs applications, il est probable que vous ayez croisé le terme SRE au détour d’un article ou d’une conversation. Pourtant, la pratique de cette discipline reste encore relativement méconnue en France.

En quelques mots, le site reliability engineering est une discipline issue de Google qui a pour objectif de créer des systèmes robustes en appliquant des pratiques d’ingénierie logicielle aux infrastructures et à l’exploitation des systèmes en production. Parmi les pratiques dont vous avez probablement entendu parler, on peut citer les SLI/SLO, l’observabilité ou encore les post-mortems.

Pour en savoir plus, nous avons écrit un article qui détaille certaines de ces pratiques :
 SRE : Les bonnes pratiques pour améliorer la fiabilité de ses services.

Si la discipline du SRE devient de plus en plus populaire, c’est qu’elle représente une suite logique à un ensemble de changements qui ont bouleversé notre façon d’aborder la tech, tant sur les aspects techniques (comme l’émergence des grands clouds publics) que dans les pratiques de delivery (avec Accelerate notamment).

En s’appuyant sur les forces du cloud et en travaillant sur l’amélioration continue de nos manières de faire, nous savons maintenant qu’il est possible et souhaitable de livrer plus souvent et de manière plus stable. Cependant, dans ce tableau, le focus reste très centré sur la partie du “build” mais manque de clarté sur la partie “run”. Et puisque l’application passera la majeure partie de sa vie en production, la question est : comment construire et piloter ma production ?

Et c’est sur cet aspect que site reliability engineering entre en jeu (d’ailleurs, c’est confirmé par l’édition 2022 du State Of Devops, où DORA fait émerger une nouvelle métrique : la reliability – page 10).

Il est donc important pour nous, OCTO, d’être présent à cette conférence.

Ce que nous retenons de cette édition

Centre de conférence et le Samuel Beckett Bridge

Centre de conférence et le Samuel Beckett Bridge

Contrairement à l’année dernière qui s’articulait autour de la thématique “What SRE Could Be”, pas de fil rouge éditorial cette année pour driver les discussions et les talks. On avait vraiment apprécié ça l’année dernière, car cela donnait un fil conducteur à une bonne partie des talks et ceux-ci se répondaient par moment.

Pas de thématique centrale donc, et on revient alors à un programme (très dense cette année avec jusqu’à 3 tracks en parallèle par rapport à 2 l’année dernière) qui aborde les grandes tendances derrière SRE.

Gestion d'incident

D’abord, on retrouve les retours d’expérience sur de la gestion d’incident – qu’on adore – avec un format qui se rapproche souvent du “Comment un truc, qu’on jugeait anodin, a cassé la production”. On a particulièrement aimé le retour de Datadog (voir ci-dessous).

Ce qu’il y a de particulièrement intéressant dans ces talks, c’est d’observer les réactions des personnes (et des organisations qui les entourent) en situation de crise. Les incidents vont arriver, comme le dit le chapitre Embracing Risk, et même dans les entreprises très avancées sur la gestion d’incident, il y a toujours de la surprise et de la place pour de l’amélioration continue. À vos post-mortems !

Observabilité

Le deuxième grand sujet de ces trois jours de conférences était celui de l’observabilité de nos systèmes. Impossible de faire du SRE sans se poser la question “comment j’observe mon système”, il est donc assez logique qu’une partie des conférences soient consacrées à ce sujet.

Plus spécifiquement, il semble qu’Open Telemetry s’impose comme un standard de fait – la plupart des acteurs d’observabilité étant maintenant compatibles. De nombreux talks étaient consacrés à ce sujet (notamment Implementing Open-source Observability within Maersk ou Cache Me If You Can: How Grafana Labs Scaled Up Their Memcached 42x & Improved Reliability), ainsi que la majorité des exposants.

L’observabilité était également l’occasion d’évoquer eBPF, sur lesquels les outils d’observabilité s’appuient. En quelques mots, eBPF (Extended Berkeley Packet Filter) est une technologie qui permet d’enrichir les fonctionnalités d’un kernel Linux, afin notamment d’y intégrer des capacités de tracing, des routines de sécurité ou d’observabilité (pour en savoir plus).Le profiling a également eu le droit à quelques talks, notamment avec l’idée un peu surprenante de le faire en production sous le nom de continuous profiling. Pas certain que l’outillage soit au niveau pour toutes les stacks, mais à surveiller.

Carrière et recrutement

La SRE Con, c’est aussi l’occasion d’évoquer les notions de carrière et de recrutement. Pour les entreprises qui souhaitent s’engager dans une démarche SRE, la question de la compétence, de la formation ou du recrutement vont se poser.

Google, Slack et quelques autres sont venus parler recrutement et formation, pas toujours avec brio, mais sur le sujet, on a aimé From Sysadmins to (almost) Flying Unicorns par Sony.

La conférence a par ailleurs organisé un panel de discussion autour des licenciements massifs (layoffs) qui ont eu lieu dans les grandes entreprises tech depuis l’année dernière. Aucune captation de discussion n’a eu lieu, mais c’était intéressant de voir qu’une conférence tech laisse de la place à ce genre de sujet.

SRE & Data

Le dernier sujet tendance, c’est l’application de SRE dans un contexte data. Cette tendance fait écho à certains talks de l’année dernière (dont la Keynote de fermeture 2022), et il est certain que les ingénieurs SRE auront de plus en plus de thématiques data à s’approprier.

Une tendance qui se dégage ?

Si je ne devais retenir qu’une seule chose de cette conférence, c’est que l’observabilité devrait être au centre de nos attentions pour les mois et années à venir. Il me semble flagrant que l’écosystème tech manque de connaissance et de maturité sur le sujet – tant sur des vieux systèmes que des plus récents – et qu’il faudra démocratiser ce sujet. Comment la mettre en place ? Comment mieux observer si je le fais déjà ?

Pour qu’une approche aussi data driven que SRE se développe, il faudra que nous progressions sur la collecte et l’exploitation des données, tant sur l’observabilité d’infrastructure qu’applicative.

Quelques talks à voir dès maintenant :

L’ensemble du programme est disponible sur le site, et les slides sont déjà disponibles.
Cette année, les vidéos ont été très rapidement publiées, on vous en a sélectionné quelques-unes qui nous ont particulièrement marquées. En bonus, un extrait de nos notes, rédigées à chaud, à l’issue du talk 🙂

The Engineer/Manager Pendulum Goes Mainstream par Charity Majors

Un talk passionnant sur ce qu'est la carrière d'ingénieur en informatique, sur la différence entre la carrière de management et la carrière d'engineering.

Talk dans la continuité de son article, elle défend une bascule entre les deux carrières pour conserver une proximité avec le terrain tout en clarifiant les rôles.

Ça résonne bcp avec les questions autour de la gestion de carrière qu’on se pose à OCTO et déconstruit le management comme la prochaine étape obligatoire.

Notes d'Adrien

The World Blew Up but We’re All Okay: How We Managed a Massive-scale Incident at Datadog par Laura de Vesine et Laurent Bernaille (Datadog)

Un rex d'incident, toujours sympa ces trucs-là :3

C'est un incident qui a rendu indisponible Datadog sur tous les fuseaux horaires et à travers plusieurs clouds providers, et la solution pour mitiger n'était pas la même pour AWS et GCP par exemple.

→ Une montée de version d'OS, qui a tourné des ségrégations logiques et physiques invisibles
Un incident pour lequel 500 PERSONNES sont passées sur le call de la résolution de l'incident (wtf right?)

Notes de Roberto

Succeeding as the Lone SRE in a Small Team par Danny Kirchmeier (Outschool)

Ça parle de (Extreme Ownership) ! Talk qui en réalité parle de la posture d'un SRE. Mais qui pourrait être retranscrite “as is” pour n'importe quel poste.

Très chouette ! Ça shift le focus sur “qu'est-ce que je peux faire pour résoudre le problème”.

Ça me fait penser à un postmortem sur la personne.

Notes de Roberto

Continuous Profiling in the Cloud-Native era : Sur le profiling en production et en continu.

The Value of Reliability par Niall Murphy (Stanza Systems)

Par un des auteurs du livre SRE.

Discussion générale sur la valeur de "reliability". Hyper intéressant, car il prend un des motos de SRE ("reliability is feature number one") et pose la question : Est-ce que c'est vraiment le cas ?
Le talk est méga intéressant, car il remet en perspective certains arguments pour la fiabilité et montrer qu'ils ne sont pas si bons. Fait avancer la discussion autour de la fiabilité.
À revoir.

Notes d'Adrien