Gireg Roussel

Llama.cpp, SGLang, vLLM : quel framework d'inférence LLM choisir pour votre assistant de code ?

Posté le 11/05/2026 par Gireg Roussel, Karim Sayadi

Étude d’une architecture auto-hébergée (LiteLLM + vLLM/SGLang/llama.cpp) sur GPUs H100/L40S avec le modèle Devstral-Small-2-24B. Tests jusqu’à 200 utilisateurs via llm-grill, notre outil d'évaluation open source.

Vers un auto-hébergement des modèles VLM/LLM : étude empirique sur une infrastructure entrée de gamme, défis et recommandations

Data & AI

Posté le 23/02/2026 par Karim Sayadi, Gireg Roussel

Ce papier évalue l'inférence d'un LLM (14B) et d'un VLM (7B) sur une NVIDIA T4. Avec 91% de succès sur 7310 requêtes, l'architecture prouve sa résilience malgré un matériel d'entrée de gamme. Une exploration entre coût, SLO et expérience utilisateur pour optimiser le déploiement de modèles auto-hébergés.

Model Context Protocol (MCP) : connecter vos LLMs à vos données et outils

Data & AI

Posté le 18/04/2025 par Teilo Millet, Gireg Roussel, Ismael Debbagh

Découvrez le Model Context Protocol (MCP), un protocole innovant pour relier vos LLMs à vos données et outils internes de manière sécurisée et efficace.