SRE

Posté le 25/03/2026 par Julien Tellier, Mathieu Laurent, Guillaume Estassy

Lors cette série d’interviews, OCTO vous propose un aperçu des sujets à considérer dans votre trajectoire des mois à venir. Aujourd’hui, Guillaume Estassy, nous parle d’Observabilité.

Lire la suite >

Posté le 20/03/2026 par Vinorth Varatharasan

« Combien d'utilisateurs simultanés peut-on supporter ? » Une question simple, quatre bottlenecks en cascade. Event loop bloqué, quotas invisibles, race condition gRPC : sur une API audio FastAPI/Cloud Run, chaque fix révélait le problème suivant. REX complet avec méthodo, métriques et code.

Lire la suite >

Posté le 03/10/2025 par Simon LEFORT

Depuis plus de 2 ans, nous sommes responsables d'un système critique qui doit être disponible 24/7. Dans cet article, nous allons vous partager ce que nous avons mis en place pour gérer au mieux les incidents : nos pratiques, nos outils, et nos apprentissages.

Lire la suite >

Posté le 18/12/2024 par Cédric Martin, Julien Tellier, Jennifer Pelisson, Adrien Saunier

Qu’est-ce qu’une application réellement prête pour la production ? Découvrez une checklist pragmatique pour sécuriser la mise en prod sans sacrifier la qualité.

Lire la suite >

Posté le 29/07/2024 par Adrien Saunier

J’ai une mauvaise nouvelle pour vous. Votre système informatique rencontrera des incidents, et toujours au pire moment. Si le système est secondaire, l'impact sera faible. Mais s'il est crucial, mieux vaut être préparé. Dans cet article, nous abordons la gestion d’incidents, par l'angle des generics mitigations pour protéger vos utilisateurs.

Lire la suite >

Posté le 02/07/2024 par Paul Juquelier, Bastien Mourrat

Découvrez comment implémenter les passkeys avec Auth0 et Keycloak pour remplacer les mots de passe par une authentification plus sûre et simple.

Lire la suite >

Posté le 07/05/2024 par Cyril Tavian

Explorez comment mettre en place une surveillance efficace des conteneurs avec Falco sur Kubernetes. Notre article détaille les étapes pour configurer Falco afin de détecter et répondre aux menaces de sécurité en temps réel, offrant une visibilité précieuse sur les activités suspectes dans votre environnement de conteneur

Lire la suite >

Posté le 19/04/2024 par Hà Hông Viêt LÊ

Évolution vs. stabilité : comment piloter la fiabilité de ses services ? Les Simon nous présentent leurs constats et solutions pour aider les équipes à dialoguer et décider rationnellement

Lire la suite >

Posté le 20/02/2024 par Emmanuel Lin Toulemonde, Aurélien Massiot

Si le nombre de personnes qui opèrent vos produits ML en phase de run est proportionnel au nombre de produits ML en production ; si la vitesse de développement de nouvelles fonctionnalités s’est écroulée au moment du passage en production ; le toil vous a, vous aussi, déjà paralysé sans que vous ne vous en rendiez compte.

Lire la suite >