Teilo Millet

Combien coûte vraiment un million de tokens quand on ne paie plus l’API, mais l’infrastructure qui les produit ? En partant du prefill, du decode, du batching, du KV cache et des modèles MoE, on estime combien de tokens une infrastructure GPU peut générer.

Et si l'article de blog devenait un dialogue ? Avec les LLM, un texte n'est plus un chemin imposé : c'est une cartouche de connaissances à interroger, synthétiser, transformer en podcast. Le même contenu s'adapte à chaque lecteur. Découvrez ce nouveau paradigme de lecture et d'écriture.

Comprendre comment instrumenter, tracer et monitorer les applications basées sur des modèles LLM.

Avec Blackwell, NVIDIA passe de 8 à 72 GPU par domaine. Ce n'est pas une amélioration de l'inférence, c'est un nouveau mode: la délégation. Vous assignez une tâche, elle tourne des heures. Les modèles open-weights locaux ne pourront jamais y accéder. La qualité est l'échelle. La dépendance est à sens unique.

Le Reinforcement Learning from Verifiable Rewards entraîne les LLMs à optimiser plutôt qu'imiter. Sur des tâches vérifiables (maths, code), les modèles explorent et découvrent des stratégies émergentes. Guide complet: algorithmes GRPO/PPO, applications, environnements, limites et bonnes pratiques.

Découvrez le Model Context Protocol (MCP), un protocole innovant pour relier vos LLMs à vos données et outils internes de manière sécurisée et efficace.

Les applications basées sur les LLM deviennent de plus en plus nombreuses, complexes et critiques, il devient indispensable d’adopter une approche rigoureuse pour garantir leur bon fonctionnement et leur amélioration continue. L’observabilité et l’évaluation doivent être repensés pour s'adapter.