SRE
Une gestion d’incidents méthodique : transformer chaque dysfonctionnement en opportunité pour améliorer son système
Cloud & Platform
Depuis plus de 2 ans, nous sommes responsables d'un système critique qui doit être disponible 24/7. Dans cet article, nous allons vous partager ce que nous avons mis en place pour gérer au mieux les incidents : nos pratiques, nos outils, et nos apprentissages.

Passer en production nous permet de tester des hypothèses qui ne peuvent être éprouvées qu’en situation réelle. Au plus tôt on y arrive, le mieux c'est. On a besoin de trouver un équilibre entre rapidité et stabilité. Nous avons donc créé un support de discussion.

J’ai une mauvaise nouvelle pour vous. Votre système informatique rencontrera des incidents, et toujours au pire moment. Si le système est secondaire, l'impact sera faible. Mais s'il est crucial, mieux vaut être préparé. Dans cet article, nous abordons la gestion d’incidents, par l'angle des generics mitigations pour protéger vos utilisateurs.

Et si l’on se passait définitivement des mots de passe ? Telle est la promesse de WebAuthn et des passkeys. Cet article explore leur mise en œuvre via les serveurs d'authentification Auth0 et Keycloak, en examinant leur simplicité et leur efficacité.

Explorez comment mettre en place une surveillance efficace des conteneurs avec Falco sur Kubernetes. Notre article détaille les étapes pour configurer Falco afin de détecter et répondre aux menaces de sécurité en temps réel, offrant une visibilité précieuse sur les activités suspectes dans votre environnement de conteneur
Évolution vs. stabilité : comment piloter la fiabilité de ses services ? Compte-rendu du talk de Simon Lefort et Simon Devineau à la Duck Conf 2024
Cloud & Platform
Évolution vs. stabilité : comment piloter la fiabilité de ses services ? Les Simon nous présentent leurs constats et solutions pour aider les équipes à dialoguer et décider rationnellement

Si le nombre de personnes qui opèrent vos produits ML en phase de run est proportionnel au nombre de produits ML en production ; si la vitesse de développement de nouvelles fonctionnalités s’est écroulée au moment du passage en production ; le toil vous a, vous aussi, déjà paralysé sans que vous ne vous en rendiez compte.

Les 10/11/12 octobre dernier, quelques octos se sont rendu à la SRECon, conférence consacrée au Site Reliability Engineering (SRE). Résumé et nos coups de cœur.

Durant le printemps, nos experts OCTO vous proposent un cycle de contenus autour du Cloud. Le sujet vous intéresse ? Pour découvrir le programme et ne rien rater, inscrivez-vous sur notre page Cloud, DevOps & Plateformes.Comme nous l'avons vu précédemment, le Cloud est un formidable outil qui vient aussi avec ses contraintes. L’agilité qu'il permet...