Circuit Breaker en Java : implémentez Hystrix pour fiabiliser vos microservices

le 16/11/2016 par Antonio Gomes Rodrigues, Edouard Perret

Maintenant que nous avons vu la théorie sur les précédents articles disponibles ici et ici, penchons-nous sur la pratique.

Comment l’implémenter ?

Plusieurs solutions sont possibles pour l’implémenter. Par exemple en Java il existe des librairies qui le font pour nous comme :

Focalisons-nous sur Netflix Hystrix.

Hystrix est un framework open source libéré par Netflix en 2012 et intégré dans Spring Cloud.

Pour l’utiliser dans notre projet Java, rien de plus simple :

Étendre la class HystrixCommand

 public class CallController extends HystrixCommand { 

Dans le constructeur de sa class, appeler le constructeur de HystrixCommand avec les paramètres désirés

public CallController() { super(HystrixCommand.Setter.withGroupKey(HystrixCommandGroupKey.Factory.asKey("MyGroup2")) .andCommandPropertiesDefaults(HystrixCommandProperties.Setter().withCircuitBreakerEnabled(true) .withExecutionTimeoutEnabled(true) .withExecutionTimeoutInMilliseconds(5000) .withExecutionIsolationThreadInterruptOnTimeout(true) .withCircuitBreakerRequestVolumeThreshold(5) .withCircuitBreakerSleepWindowInMilliseconds(1 * 60 * 1000) .withMetricsRollingStatisticalWindowInMilliseconds(3 * 61 * 1000)));

Surcharger la méthode run() et y mettre son code

@Override protected String run() { String message_distant; Socket socket; BufferedReader in; try { System.out.println(" Demande de connexion " + InetAddress.getLocalHost()); ... System.out.println(" Message distant " + message_distant); socket.close(); } catch (UnknownHostException e) { System.out.println("UnknownHostEXCEPTION"); throw new RuntimeException(); } catch (IOException e) { System.out.println(" IOEXCEPTION"); // e.printStackTrace(); throw new RuntimeException(); } if (message_distant == null) { throw new RuntimeException(); } return "-----" + message_distant + " -------"; }

Implémenter la réponse alternative de repli dans la méthode getFallback()

 @Override protected String getFallback() { return "---- Fallback : No Answer from distant Server ----- "; } 

Ajouter les dépendances d’Hystrix à son projet

Par exemple avec Apache Maven.

 com.netflix.hystrix hystrix-core x.y.z 

Comme nous venons de le voir, l’utilisation de Hystrix n’est pas très compliquée.

Les difficultés sont plutôt de pouvoir :

Avoir une réponse alternative de repli pertinente, rapide et toujours disponible
Paramétrer finement le circuit breaker en fonction du cas d’utilisation
Connaître tous les appels sortants

Sur les appels sortants, plusieurs solutions sont possibles pour les détecter :

Utilisation d’un APM bien configuré
Instrumenter le bytecode Java pour récupérer la stacktrace de chaque appel sortant
Utiliser la solution Hystrix Network Auditor Agent qui se présente sous la forme d’un agent Java

Et comment fais-je pour le tester ?

Une fois l’implémentation réalisée, l’étape suivante est de la tester pour être sûr que tout marche comme convenu.

Nous allons séparer les tests en deux parties :

Les tests unitaires qui doivent être nombreux, automatisés, disponibles dès le début du projet afin d’aider à construire l’application.
Les tests de robustesse (test avec la charge cible du système durant lequel on dégrade volontairement une ressource afin d’éprouver la robustesse du système) qui doivent être joués régulièrement, de préférence automatisés afin de contrôler notre application sous charge.

Commençons par les tests unitaires

Si Netflix Hystrix est utilisé, un moyen simple de tester que tout fonctionne correctement lorsque le circuit breaker est ouvert, est d’utiliser la propriété forceOpen.

Une autre solution plus générique est d’utiliser un outil de mock où l’on peut scripter les réponses. WireMock est l’un d’eux. Il permet de mocker une API et de paramétrer les réponses (ajout de délai, réponse erronée…). Solution plus simple si nous ne voulons pas ajouter un nouvel outil dans le projet est de mocker la fonction de wrapping pour avoir le résultat attendu.

Mais la meilleure solution est de prévoir dans votre code, le moyen d’ouvrir à la demande le circuit breaker pour réaliser les tests le plus simplement possible (comme dans Hystrix et sa propriété forceOpen).

Passons aux tests de robustesse

Cette étape ne doit pas être négligée, car pour avoir réalisé de nombreux tests de robustesse dans ma carrière, régulièrement j’ai eu des surprises (effet domino d’un crash qui s’étend à toute l’application, mécanisme d’éviction de la dépendance défaillante buggée, mécanisme de retour de la dépendance défaillante une fois le problème corrigé instable…).

De plus, réaliser ces tests a de nombreux avantages :

Détecter les effets boule de neige
Réduire les risques en production
Améliorer la supervision de la production
Entraîner les équipes d’exploitation aux cas de défaillance
Documenter le processus à suivre en cas de défaillance
Tester le Plan de reprise d'activité (PRA)
etc.

Quelques possibilités de test de robustesse :

Faire tomber une dépendance
Dégrader le réseau (paquets perdus, latence élevée, réduction du débit…)
Dégradé le temps de réponse du service appelé de manière aléatoire
Générer un comportement anormal (levée d’exception…) des services
Renvoyer des réponses mal construites
etc.

Passons au concret avec quelques exemples, mais avant cela une présentation rapide de quelques outils est nécessaire.

Apache JMeter pour simuler de la charge et piloter la génération des défaillances

JMeter est un outil libre qui permet d'effectuer des tests de performance sur des applications. Il permet de simuler le comportement de plusieurs utilisateurs agissant de manière simultanée. Il est aussi possible avec cet outil de conserver les résultats et de les enregistrer au format CSV et en base de données, par exemple InfluxDB.

Quelques fonctionnalités utiles lors de test de robustesse :

Groupe d'unités de début
- Va nous permettre d’initialiser un certain nombre d’actions en début de test
Groupe d'unités
- Va nous permettre de regrouper les utilisateurs en population
Échantillon JSR223 et Requête Java
- Va nous permettre d’exécuter du code Java/Groovy/JavaScript/...
Requête HTTP
- Va nous permettre de faire des appels HTTP
Appel de processus système
- Va nous permettre de faire des appels à des programmes

Netflix Chaos Monkey pour générer des défaillances

Chaos Monkey est un outil open source développé par Netflix pour tester le bon fonctionnement de son écosystème cloud. Sachant que les pannes sont inévitables, cet outil est destiné à stopper aléatoirement des instances de machines virtuelles et des services dans le but de détecter les points faibles de l'architecture mise en place. L'arrêt des machines simule d'hypothétiques pannes et permet de s'assurer que le système est construit avec un degré de redondance suffisant.

Librairies de manipulation de bytecode : Red Hat Byteman/Byte Buddy/… pour générer des défaillances

Ces librairies vont nous aider à injecter du code à la volée pendant l'exécution de notre application. Et bien sûr, le code injecté permettra de provoquer une défaillance :

Exceptions
Timeout
Augmentation du temps d’attente
Injection de valeurs fausses dans la réponse
etc.

Nous allons prendre pour exemple Byteman. (N’hésitez pas à lire sa documentation officielle pour plus d’informations.)

Byteman se présente sous la forme d’un agent Java (qui s'attache à la JVM avec le paramètre javaagent lors du lancement de notre application ou le programme bmjava.sh livré avec Byteman). Il ne nous reste plus qu'à injecter des Rules

Une Rules se compose :

D'un nom
De la classe et la méthode dans laquelle nous allons injecter notre code
De notre code en lui-même

Et lors de l'exécution de notre application, à chaque exécution de la méthode ciblée, notre code sera lui aussi exécuté.

Exemple de perte de connexion à la base de données :

 RULE JdbcOwnerRepositoryImpl.findById throw an exception CLASS JdbcOwnerRepositoryImpl METHOD findById AT ENTRY IF true DO throw new org.springframework.dao.DataRetrievalFailureException("Probleme de connexion a la base de donnees") ENDRULE 

Exemple d’augmentation du temps de réponse :

 RULE Wait in OwnerController.processFindForm entry CLASS OwnerController METHOD processFindForm AT ENTRY IF true DO Thread.sleep(8000) ENDRULE 

Outils système pour générer des défaillances

De nombreux outils livrés avec votre système d’exploitation préféré peuvent aider à créer des défaillances.

Par exemple sous Linux :

La commande kill pour tuer un processus
La commande tc pour modifier le comportement du réseau

Exemple de simulation de perte de paquet avec la commande tc :

 tc qdisc add dev wlan0 root netem loss 10% 

Un peu de supervision pour suivre nos tests de robustesse

Et qui dit test dit supervision afin de comprendre ce qui se passe.

Pour cela, nous allons utiliser :

InfluxDB pour stocker nos données horodatées
Grafana pour visualiser les résultats
AWS CloudWatch pour avoir des informations sur les instances des services

Template de test

Maintenant que tout est en place, il ne nous reste plus qu'à implémenter nos tests de robustesse en suivant ce modèle.

Avec les parties suivantes :

Préparation environnement
- Nous réalisons toutes les actions préalables (action de son outil de manipulation de bytecode, chargement des caches…)
Simulation d'Utilisateurs
- Nous simulons des actions utilisateurs pendant toute la durée du test
Génération de la défaillance
- Au bout de X minutes, on provoque la défaillance
Correction de la défaillance
- Au bout de X + Y minute, on répare la défaillance pour vérifier que l’application revient dans un état stable.

Comme on peut le voir, JMeter joue aussi le rôle d'orchestration en activant et désactivant la défaillance pendant que l’application est sous charge.

Résumons le tout avec des schémas.

Étape 1 : JMeter simule des utilisateurs jusqu'à la vitesse de croisière (charge atteinte, application et temps de réponse stables).

Étape 2 : JMeter demande au simulateur de défaillance de générer un problème (perte du réseau, crash d’un service…) et envoie l’heure exacte du déclenchement dans l’outil de supervision.

Ensuite nous laissons tourner assez longtemps pour récupérer toutes les informations nécessaires pour l'analyse et le bon déclenchement du circuit breaker.

Étape 3 : Nous corrigeons la défaillance pour vérifier que tout revient à l’état prévu.

Et comme pour tous les tests, n’oubliez pas d’automatiser ce qui est possible (attention au coût de maintenance) pour les jouer souvent.

Conclusion

Nous savons maintenant comment tester le circuit breaker.

Nous verrons lors du prochain et dernier article comment le superviser et ses limites.

Pour aller plus loin, notre nouveau livre blanc sur le sujet vient de sortir :

TELECHARGER LE LIVRE BLANC