Teilo Millet
Posté le 24/10/2025 par Teilo Millet

Le Reinforcement Learning from Verifiable Rewards entraîne les LLMs à optimiser plutôt qu'imiter. Sur des tâches vérifiables (maths, code), les modèles explorent et découvrent des stratégies émergentes. Guide complet: algorithmes GRPO/PPO, applications, environnements, limites et bonnes pratiques.
Posté le 18/04/2025 par Teilo Millet, Gireg Roussel, Ismael Debbagh

Découvrez le Model Context Protocol (MCP), un protocole innovant pour relier vos LLMs à vos données et outils internes de manière sécurisée et efficace.
Posté le 17/04/2025 par Ali El Moussawi, Teilo Millet, Ismael Debbagh, Marc Medlock

Les applications basées sur les LLM deviennent de plus en plus nombreuses, complexes et critiques, il devient indispensable d’adopter une approche rigoureuse pour garantir leur bon fonctionnement et leur amélioration continue. L’observabilité et l’évaluation doivent être repensés pour s'adapter.
1