Rendre son code Python performant grâce au profiling

le 12/04/2021 par Baptiste O'jeanson

Dans ce REX, nous allons décrire comment nous sommes parvenus à diviser le temps d'exécution de notre application en Python, appelée MOMA, par 50 et stabiliser son empreinte mémoire à 200 Mo grâce au profiling. Notre application est un système de génération de fichiers binaires par traitement batch soumis à de fortes contraintes de performances (CPU & mémoire). Les fichiers binaires générés encodent des messages qui sont ensuite diffusés par satellite.

Nous allons vous décrire ici notre stratégie de refactoring et comment nous l’avons appliquée pour rendre notre code beaucoup plus rapide et stable.

Initialement, notre application ne passait pas à l’échelle du million d’enregistrements. Pour 1 million d’enregistrements en entrée :

l’exécution durait plus d’une heure et demie
la mémoire dépassait les 7 Go.

Ce graphique présente l’évolution du temps d’exécution et de l’utilisation de la mémoire de notre application en fonction des optimisations du code que nous avons apportées.

Contexte
1. Optimiser la récupération des données (requêtage de la BD)
1. ORM & N+1 requests
2. Ajout d’index en BD
2. Optimiser la sérialisation de la section MPEG
3. Optimisation de la mémoire utilisée
1. Écriture du fichier binaire en multipart sur S3
2. Récupération des données par chunk (server-side cursors)
Conclusion

L’outil MOMA, quèsaco ?

Le système de génération MOMA a pour objectif de générer un fichier binaire au format MPEG, appelé carrousel, encodant des messages à destination d’abonnés Canal +.

Ces abonnés sont répartis dans différentes zones géographiques :

l’Afrique
les Caraïbes
la Nouvelle Calédonie
la Réunion

Un message adressé à un abonné fait partie d’une campagne marketing. Une campagne vise plusieurs abonnés d’une même zone géographique pendant une certaine durée (date de début et de fin de validité).

Ainsi, pour chacune de ces zones géographiques, générer le carrousel se fait en trois étapes :

Aller chercher les messages associés à des campagnes valides à destination d’abonnés d’une zone géographique en base de données
Sérialiser les messages dans une structure de données binaire (bitwise)
Écrire la structure de données binaire encodant les messages sur un dépôt de fichiers (AWS S3)

Voici un diagramme de séquence illustrant ces étapes :

Une fois le fichier binaire généré et présent sur le dépôt de fichier (AWS S3), celui-ci est transféré du dépôt de fichiers (AWS S3) vers un autre serveur. Dès lors, il est mis en diffusion par satellite et les abonnés de la zone géographique concernée le recevront directement sur leur télévision grâce au décodeur Canal +.

Contraintes métiers et performances du système

Une telle génération a lieu plusieurs fois par jour pour chaque zone géographique. S’ensuit leur mise en diffusion imminente. Ainsi, pour assurer cette cadence de diffusion, la génération doit être de l’ordre de la dizaine de minutes pour une volumétrie en entrée de l’ordre de quelques dizaines de millions d'enregistrements.

D’autre part, notre système de génération doit pouvoir produire ce fichier binaire que la volumétrie en entrée soit de 15 000 000 d’enregistrements comme 40 000 000. Le système doit tenir la charge en conservant une empreinte mémoire stable et maîtrisée quelque soit la volumétrie en entrée.

Voici la cible que nous devons atteindre :


Nombre d'enregistrements retournés par la BD à traiter par la génération	Durée d’exécution maximale de la génération	RAM maximale utilisable
40 000 000	1h20	200 MB
15 000 000	0h30	200 MB
__500 0__00	0h01	200 MB

Voici les performances initiales de notre système :


Nombre d'enregistrements retournés par la BD à traiter par la génération	Durée d’exécution maximale de la génération	RAM maximale utilisée
40 000 000	??	??
15 000 000	17h30	+7000 MB
__500 00__0	0h35	6000 MB

Il s’agit de diviser le temps de génération par 35 et l’usage de la mémoire par plus de 30.

Code profiling

Le code profiling est une technique permettant d'analyser l’exécution d’un logiciel pour en connaître son comportement à l’exécution (Wikipedia).

Il permet de se rendre compte lors de l’exécution d’un logiciel de :

la liste des fonctions appelées et le temps passé dans chacune d'elles
l'utilisation processeur
l'utilisation mémoire

Cette technique est utilisée pour identifier les goulots d’étranglement dans le code à des fins d’optimisation.

Stratégie et outillage pour réduire le temps d’exécution et l’empreinte mémoire

Pour réduire le temps d’exécution, nous avons adopté la stratégie suivante :

Exécuter notre application de génération avec du profiling (temps d’exécution et charge mémoire)
Cibler l’opération la plus chronophage dans l’exécution proportionnellement à la durée totale d’exécution
Comprendre pourquoi l’opération est si chronophage
Refactorer l’opération pour la rendre moins chronophage
Réitérer au point 1. jusqu’à avoir un temps d’exécution total satisfaisant

Pour réduire l’empreinte mémoire, nous avons utilisé un profiler de mémoire de deux manières :

En annotant les appels de fonctions qu’on pense être gourmands en mémoire
En exécutant notre application via le profiler pour avoir un rapport de l’usage mémoire globale au cours du temps.

Les outils que nous avons choisi sont :

PyCharm (1) et son mode d’exécution profilé pour les durées d’exécution
memory_profiler une librairie Python pour mesurer l’empreinte mémoire

Voici un aperçu dans PyCharm (2) :

Considérations générales

Dans notre quête de réduction du temps d’exécution, nous ne voulions pas complexifier l'architecture de l'application, dans un souci de maintenabilité. En conséquence, les pistes faisant appel à de la parallélisation, comme du multiprocessing ou du multithreading, ne seront explorées qu’en dernier recours. L’idée est de s’efforcer de comprendre l’impact de chaque ligne de code en l’état et d’apporter les optimisations nécessaires. Si ces optimisations n’étaient pas suffisantes, les pistes de la parallélisation seraient à envisager.

D’autre part, nous n’exécutons qu’une seule fois notre application avec du profiling avant de chercher des optimisations, car il n’est pas envisageable de lancer plusieurs exécutions profilées lorsque celles-ci durent plusieurs heures. En effet, notre code est déterministe et s'exécute toujours de la même façon.

1. Optimiser la récupération des données (requêtage de la BD)

Pour générer le carrousel d’une zone géographique, il faut tout d’abord récupérer les messages associés aux campagnes valides depuis la base de données. En effet, notre base de données comporte deux tables :

la table messages : contient des messages à destination des abonnés
la table campagnes : contient des campagnes marketing pour différentes zones géographiques et avec leurs plages de temps de diffusion

Une campagne regroupe un ensemble de messages. La table messages contient donc une clé étrangère vers la table campagnes.

Pour pouvoir récupérer les différents messages associés aux campagnes valides, il faut :

Filtrer les campagnes pour récupérer celles qui sont valides
Récupérer tous les messages associés à ces campagnes par une jointure sur l’identifiant de campagne (clé étrangère).

ORM & N+1 requests

Pour rappel, Wikipédia nous définit un ORM (object-relational mapping) comme étant une interface entre un applicatif et une base de données relationnelle. Il fait le lien entre les schémas de la base de données et le modèle objet de l’application. C’est une couche d'abstraction facilitant les échanges entre le monde objet et le monde relationnel.

Pour MOMA, nous utilisons l’ORM peewee pour sa simplicité et sa légèreté.

Définition

Le problème des N+1 requêtes est un problème classique qui peut arriver lors du requêtage d’une base de données à travers un ORM. Lorsqu’une application fait une première requête à une base de données, puis au moins une requête pour chacun des enregistrements retournés par cette première requête, alors nous sommes dans une situation de N+1 requêtes.

Notre usage de la base de données

Nous requêtons la base de données pour récupérer toutes les campagnes valides, puis pour chaque campagne valide, tous les messages associés.

 SELECT * FROM campagnes WHERE c.valid_start <= ? AND c.valid_end >= ? AND ... ; 

Et pour chaque campagne retournée :

 SELECT * FROM messages WHERE messages.campagne_id_fk = ?; 

Notre choix d’implémentation consiste à faire une requête pour récupérer les campagnes valides puis, pour chaque campagne valide, une requête pour récupérer ses messages associés.

Constat et problèmes

Dans ce cas, nous nous attendions à réaliser :

une requête pour récupérer une liste de P campagnes valides (P étant le nombre de campagnes valides)
P requêtes pour récupérer les messages associés à chacunes de ces P campagnes

(3)

Or, en faisant du profiling, nous nous sommes rendu compte que notre application réalisait beaucoup plus de requêtes qu’attendu (>P+1).

Voici le code Python pour récupérer les campagnes et les messages associés :

valid_campagne_entities = CampagneEntity.select().where( (fn.date_trunc("day", CampagneEntity.valid_start) <= current_date) & (current_date <= fn.date_trunc("day", CampagneEntity.valid_end)) & (CampagneEntity.zone_diffusion == zone_diffusion)) for campagne_entity in valid_campagne_entities: campagne = campagne_entity.to_model() for message_entity in MessageEntity.select().where(MessageEntity.campagne == campagne_id): message = message_entity.to_model() DO_SOME_STUFF(campagne, message)

Rien de surprenant dans ce code. Allons voir les objets MessageEntity et CampagneEntity.

Voici le code implémentant l’objet ORM MessageEntity faisant le pont entre la table messages de la base de données et l’objet Python Message :

 class MessageEntity(BaseEntity): class Meta: table_name = "messages" id = BigAutoField(...) campagne = ForeignKeyField(...) numero_abonne = BigIntegerField(...) storables = JSONField(...) def to_model(self) -> Message: return Message(self.campagne.id, self.numero_abonne, self.storables) 

La méthode to_model permet de construire un objet Message (notre objet Python modélisant un message au sens métier) à partir d’un objet MessageEntity (objet de l’ORM qui représente la modélisation en base de données).

L’investigation nous a montré qu’à chaque instanciation d’un objet Message l’usage de self.campagne.id impliquait une requête supplémentaire pour résoudre la clé primaire de la campagne associée. Ainsi, pour une campagne valide en BDD associée à 5 messages, nous avons :

1 requête en BDD pour récupérer la campagne valide
1 requête pour récupérer les messages associés
5 requêtes supplémentaires pour résoudre la clé primaire de la campagne associée aux 5 messages.

Soit 7 requêtes au total au lieu des 2 initialement attendues.

Dans le schéma ci-dessous, nous nous focalisons sur la partie de la requête qui récupère des messages associés à chaque campagne valide et nous génère des requêtes supplémentaires non-souhaitées. On peut notamment voir qu’une requête pour récupérer les messages associés à une campagne valide génère Q requêtes supplémentaires :

Pour rappel, dans un scénario idéal, on aurait :

1 requête en BDD pour récupérer la campagne valide
1 requête en BDD pour récupérer les messages associés.

Soit 2 requêtes (cf ce schéma).

Solution

Pour résoudre ce problème, il nous a suffit d’utiliser directement l’attribut campagne_id_fk de l’objet MessageEntity qui est valorisé lorsqu’un message est récupéré de la BD.

 class MessageEntity(...): [...] campagne = ForeignKeyField(column_name="campagne_id_fk", ...) def to_model(self) -> Message: return Message(self.campagne_id_fk, self.numero_abonne, self.storables) 

Take away

Être vigilant aux requêtes SQL réellement produites par notre code applicatif. Par exemple en activant le logging des requêtes SQL au niveau de l’ORM et/ou au niveau de la base de données
Les ORMs sont des outils puissants, souvent bien optimisés, mais à manier avec précaution. Bien prendre le temps de s’approprier la documentation de son ORM pour en connaître les bonnes pratiques et les limites.
Lire attentivement la documentation de son ORM au sujet des bonnes pratiques à suivre pour prévenir le phénomène de N+1 requests.
Ne pas hésiter à creuser le code sous-jacent aux objets de l’ORM car ils peuvent impliquer des requêtes en BDD.
Utiliser les objets de l’ORM uniquement pour interagir avec la BDD pour éviter toute erreur d’utilisation qui pourrait engendrer des requêtes à la BDD.