LangSmith : Observer et améliorer vos LLMs
Découvrez la plateforme d'observation (observability) et d'évaluation des LLMs. Pourquoi c'est l'outil que tout PO IA doit connaître pour monitorer la qualité de ses assistants conversationnels.
🎯 Objectifs du module
- ✓Comprendre le problème : les LLMs sont des boîtes noires
- ✓Découvrir LangSmith : tracing, évaluation, datasets, playground
- ✓Savoir spécifier des critères de qualité pour votre assistant IA
- ✓Comprendre comment le PO valide la qualité des réponses IA
1. Le problème de la boîte noire
Quand vous déployez un assistant IA en production, vous ne savez pas pourquoi il a répondu ça. Était-ce la bonne source ? Le bon prompt ? Une hallucination ?
- ❌ Pas de logs détaillés des appels LLM
- ❌ Pas de tracking des tokens consommés
- ❌ Pas de comparaison entre versions de prompt
- ❌ Difficulté à reproduire un bug utilisateur
🎯 Impact PO
- • Vous ne pouvez pas prouver la qualité du produit à votre sponsor
- • Les bugs sont impossibles à reproduire
- • Les coûts LLM explosent sans visibilité
- • L'amélioration continue est aveugle
2. LangSmith : la solution d'observability LLM
LangSmith est la plateforme de LangChain dédiée au tracing, à l'évaluation et au monitoring des applications LLM. C'est l'équivalent de Datadog ou Sentry, mais spécialisé pour l'IA générative.
Tracing
Chaque appel LLM est tracé : prompt, réponse, durée, coût, modèle.
Évaluation
Testez vos prompts sur des datasets et mesurez la qualité.
Playground
Itérez sur vos prompts en comparant les versions côte à côte.
3. Le Tracing : la feature clé pour les POs
Chaque interaction avec votre assistant IA génère un trace détaillé. Vous pouvez voir exactement ce que l'IA a "pensé", combien de temps ça a pris, et combien ça a coûté.
| Donnée tracée | Utilité PO |
|---|---|
| Prompt envoyé | Vérifier que le bon contexte est passé |
| Réponse reçue | Valider la pertinence de la réponse |
| Temps de réponse | Respect des SLAs (ex: < 3s) |
| Tokens consommés | Maîtrise des coûts par feature |
| Modèle utilisé | Vérifier que le bon modèle est appelé |
| Erreurs / Exceptions | Prioriser les bugs à corriger |
🔑 Exemple concret
Un utilisateur signale : "L'assistant a donné une mauvaise information sur le délai de livraison." Avec LangSmith, vous retrouvez le trace exact de cette conversation : quel prompt a été envoyé ? Quelle source RAG a été utilisée ? Quelle température ? Vous pouvez diagnostiquer et corriger en 5 minutes au lieu de 2 jours.
4. Datasets & Évaluation (Evaluation)
LangSmith permet de créer des datasets de test : des paires (question, réponse attendue) qui permettent de valider automatiquement la qualité de votre assistant après chaque modification de prompt.
📋 Créer un dataset
- 1. Définir 20 à 50 questions représentatives
- 2. Rédiger les réponses attendues (ground truth)
- 3. Catégoriser par domaine / difficulté
📊 Lancer une évaluation
- 1. Exécuter le dataset contre votre assistant
- 2. Comparer les réponses à l'attendu
- 3. Obtenir un score de qualité (accuracy, pertinence)
5. Rôle du PO dans l'évaluation LLM
Définir les critères de qualité
"Le taux de bonnes réponses doit être > 90%", "Pas d'hallucination sur les données réglementaires", "Réponse en moins de 3 secondes".
Rédiger le dataset de validation
Vous connaissez mieux que personne les questions que les utilisateurs vont poser. À vous de fournir les 50 scénarios de test.
Valider les régressions
"Avant le changement de prompt, mon assistant répondait bien à cette question. Maintenant il ne sait plus. On rollback."
Suivre les KPIs dans le temps
Tableau de bord de la qualité : accuracy rate, coût par requête, latence moyenne, taux d'erreur.
6. Cas pratique : Spécifier un dataset de test
🎯 Exemple : Assistant conformité pour banque
Titre : Dataset de validation — Assistant Conformité RGPD
| Question | Réponse attendue | Critère |
|---|---|---|
| Quel est le délai de conservation des données ? | 36 mois après la fin du contrat | Exactitude |
| Puis-je partager ces données avec un tiers ? | Non, sauf consentement explicite | Exactitude |
| Qu'est-ce qu'une DPO ? | Data Protection Officer — délégué à la protection des données | Pertinence |
💡 En tant que PO, vous spécifiez ce dataset. Les développeurs l'intègrent dans LangSmith. Chaque déploiement exécute ces tests automatiquement — si le score baisse, le déploiement est bloqué.
7. LangSmith vs Concurrents
| Outil | Focus | Pour le PO |
|---|---|---|
| LangSmith | Tracing + Évaluation + Datasets | ⭐⭐⭐ La plus complète |
| Weights & Biases | ML experiment tracking | ⭐⭐ Plutôt data scientist |
| Arize AI | Monitoring production | ⭐⭐ Supervision production |
| Helicone | Coûts & latence | ⭐ Budget et perf |
💡 Le mot du formateur
LangSmith est l'outil d'observability le plus adopté dans l'écosystème LLM. Si votre équipe utilise LangChain (le framework le plus répandu), LangSmith s'intègre en une ligne de code. En entretien, mentionnez LangSmith quand on vous demande "Comment garantissez-vous la qualité de votre assistant IA ?" — c'est une réponse qui fait la différence.