https://www.scaleway.com/en/docs/generative-apis/reference-content/supported-models/). Exemple de modèles : Codestral 2501 – Mistral, QwenCoder 2.5 – Alibaba, DeepSeek Coder – DeepSeek, LLaMA 3 – Meta
La performance des modèles en terme de pertinence dépend de la tâche (chat, génération, autocomplétion) de nombreux benchmarks en ligne permettent de suivre les évolutions (Livebench, Aider,Codestral Benchmarks)
Du point de vue de l’hébergement du LLM (ou modèle) il y a techniquement 3 options
La performance des modèles en termes de rapidité dépend de l’infrastructure sous-jacente. Les modèles accédés par API (LLM as a Service) sont très rapides. Monter une infrastructure d'auto hébergement (LLM privé) uniquement pour un usage d’assistant de code ne nous semble pas adapté dans la majorité des cas du fait de sa complexité et des évolutions rapides matérielles et logicielles. Par contre cela peut être une option si une infrastructure “IA” existe déjà dans l’entreprise ou peut être partagée avec d’autres usages.
Le déploiement de LLM sur le poste du développeur. Est techniquement possible, cependant nous ne recommandons pas cette option pour trois raisons:
En conclusion l’utilisation de LLM as a Service souverain est la voie généralement à privilégier : choix, performance, flexibilité
Comme présenté dans le début de l’article, la mise en place d’un assistant de code souverain consiste à choisir un plug-in compatible avec son IDE et un LLM souverain. Nous proposons ici des outils qui correspondent aux exigences de souverainetés que nous avons détaillées.
Le développement d’un plug-in maison n’est pas conseillé : les fonctionnalités des LLMs évoluent de manière très rapide et il serait rapidement dépassé. Il est préférable de choisir un plug-in du marché compatible avec l’IDE utilisé par les développeurs. Par exemple “continue.dev” qui est open source. Le choix du plug-in n’est pas “engageant” et on peut imaginer utiliser plusieurs plug-in pour des usages différents, par exemple Continue.dev et Cline.
Continue.dev permet de spécifier différents modèles d’IA suivant les fonctions. Les critères de choix sont la puissance du LLM et sa disponibilité en hébergement souverain, local à l’entreprise ou en mode LLM as a Service. Pour répondre à ces critères on peut, à l’heure actuelle choisir Codestral ou QwenCoder.
Comme discuté plus haut, nous recommandons de démarrer avec un LLM as a Service sur cloud européen car cela permet :
Les coûts sont de l’ordre de 1 ou 2 euros par million de token. Un développeur peut consommer un million de tokens par jour suivant son usage. L’utilisation du mode “agent” (appelé aussi plan/act) peut très fortement augmenter cette consommation, par exemple j’ai pu observer une augmentation de facteur 10.
Alternativement il est possible de se brancher sur le LLM Claude Sonnet disponible sur AWS Bedrock. Cette solution n’est pas complètement souveraine, mais elle permet d’accéder à un des meilleurs modèles actuels sur une infrastructure hébergée en Europe (par exemple eu-west-3) et avec un engagement à ce que les données ne sont pas communiquées pour l'entraînement de modèles (référence AWS Bedrock)
L’offre en plug-in, LLMs et LLM as a Service évolue littéralement de jour en jour. Il est donc crucial de réexaminer les choix régulièrement, par exemple tous les trimestres.
Cet examen tiendra compte de trois éléments:
Il est possible de faire évoluer son hébergement ou même d’héberger les modèles sur son propre cloud. Cette dernière option est plus complexe à mettre en œuvre et nécessite une étude de ROI car les ressources physiques et les modèles évoluent très rapidement.
La disponibilité de plug-in “assistant de code” open-source, de LLMs open-weight/open source et de LLM As A Service souverain ouvrent la voie à la mise en œuvre aisée d’assistants de code souverains.
Nous préconisons la démarche suivante
👉 Commencez avec des outils sur étagère : Continue.dev, API Scaleway, modèle Codestral. En prenant en compte les critères suivants :
👉 Mesurez les usages et les coûts : nombre de tokens, performance perçue
👉 Envisagez de faire évoluer le mode d’hébergement vers de l’interne si le ROI le justifie
Le marché bouge très vite : nouveaux modèles chaque mois, offres commerciales en évolution, nouvelles régulations. Il faut par conséquent éviter des investissements lourds et à trop long terme et privilégier une approche modulaire (briques existantes) et réversible.