Gireg Roussel
Llama.cpp, SGLang, vLLM : quel framework d'inférence LLM choisir pour votre assistant de code ?
Data & AI
Étude d’une architecture auto-hébergée (LiteLLM + vLLM/SGLang/llama.cpp) sur GPUs H100/L40S avec le modèle Devstral-Small-2-24B. Tests jusqu’à 200 utilisateurs via llm-grill, notre outil d'évaluation open source.
Vers un auto-hébergement des modèles VLM/LLM : étude empirique sur une infrastructure entrée de gamme, défis et recommandations
Data & AI
Ce papier évalue l'inférence d'un LLM (14B) et d'un VLM (7B) sur une NVIDIA T4. Avec 91% de succès sur 7310 requêtes, l'architecture prouve sa résilience malgré un matériel d'entrée de gamme. Une exploration entre coût, SLO et expérience utilisateur pour optimiser le déploiement de modèles auto-hébergés.
Posté le 18/04/2025 par Teilo Millet, Gireg Roussel, Ismael Debbagh

Découvrez le Model Context Protocol (MCP), un protocole innovant pour relier vos LLMs à vos données et outils internes de manière sécurisée et efficace.
1