Module 12 📅 25 minutes

LangSmith : Observer et améliorer vos LLMs

Découvrez la plateforme d'observation (observability) et d'évaluation des LLMs. Pourquoi c'est l'outil que tout PO IA doit connaître pour monitorer la qualité de ses assistants conversationnels.

🎯 Objectifs du module

✓Comprendre le problème : les LLMs sont des boîtes noires
✓Découvrir LangSmith : tracing, évaluation, datasets, playground
✓Savoir spécifier des critères de qualité pour votre assistant IA
✓Comprendre comment le PO valide la qualité des réponses IA

1. Le problème de la boîte noire

Quand vous déployez un assistant IA en production, vous ne savez pas pourquoi il a répondu ça. Était-ce la bonne source ? Le bon prompt ? Une hallucination ?

❌ Pas de logs détaillés des appels LLM
❌ Pas de tracking des tokens consommés
❌ Pas de comparaison entre versions de prompt
❌ Difficulté à reproduire un bug utilisateur

🎯 Impact PO

• Vous ne pouvez pas prouver la qualité du produit à votre sponsor
• Les bugs sont impossibles à reproduire
• Les coûts LLM explosent sans visibilité
• L'amélioration continue est aveugle

2. LangSmith : la solution d'observability LLM

LangSmith est la plateforme de LangChain dédiée au tracing, à l'évaluation et au monitoring des applications LLM. C'est l'équivalent de Datadog ou Sentry, mais spécialisé pour l'IA générative.

🔍

Tracing

Chaque appel LLM est tracé : prompt, réponse, durée, coût, modèle.

📊

Évaluation

Testez vos prompts sur des datasets et mesurez la qualité.

🧪

Playground

Itérez sur vos prompts en comparant les versions côte à côte.

3. Le Tracing : la feature clé pour les POs

Chaque interaction avec votre assistant IA génère un trace détaillé. Vous pouvez voir exactement ce que l'IA a "pensé", combien de temps ça a pris, et combien ça a coûté.

Donnée tracée	Utilité PO
Prompt envoyé	Vérifier que le bon contexte est passé
Réponse reçue	Valider la pertinence de la réponse
Temps de réponse	Respect des SLAs (ex: < 3s)
Tokens consommés	Maîtrise des coûts par feature
Modèle utilisé	Vérifier que le bon modèle est appelé
Erreurs / Exceptions	Prioriser les bugs à corriger

🔑 Exemple concret

Un utilisateur signale : "L'assistant a donné une mauvaise information sur le délai de livraison." Avec LangSmith, vous retrouvez le trace exact de cette conversation : quel prompt a été envoyé ? Quelle source RAG a été utilisée ? Quelle température ? Vous pouvez diagnostiquer et corriger en 5 minutes au lieu de 2 jours.

4. Datasets & Évaluation (Evaluation)

LangSmith permet de créer des datasets de test : des paires (question, réponse attendue) qui permettent de valider automatiquement la qualité de votre assistant après chaque modification de prompt.

📋 Créer un dataset

1. Définir 20 à 50 questions représentatives
2. Rédiger les réponses attendues (ground truth)
3. Catégoriser par domaine / difficulté

📊 Lancer une évaluation

1. Exécuter le dataset contre votre assistant
2. Comparer les réponses à l'attendu
3. Obtenir un score de qualité (accuracy, pertinence)

5. Rôle du PO dans l'évaluation LLM

🎯

Définir les critères de qualité

"Le taux de bonnes réponses doit être > 90%", "Pas d'hallucination sur les données réglementaires", "Réponse en moins de 3 secondes".

📝

Rédiger le dataset de validation

Vous connaissez mieux que personne les questions que les utilisateurs vont poser. À vous de fournir les 50 scénarios de test.

🔬

Valider les régressions

"Avant le changement de prompt, mon assistant répondait bien à cette question. Maintenant il ne sait plus. On rollback."

📈

Suivre les KPIs dans le temps

Tableau de bord de la qualité : accuracy rate, coût par requête, latence moyenne, taux d'erreur.

6. Cas pratique : Spécifier un dataset de test

🎯 Exemple : Assistant conformité pour banque

Titre : Dataset de validation — Assistant Conformité RGPD

Question	Réponse attendue	Critère
Quel est le délai de conservation des données ?	36 mois après la fin du contrat	Exactitude
Puis-je partager ces données avec un tiers ?	Non, sauf consentement explicite	Exactitude
Qu'est-ce qu'une DPO ?	Data Protection Officer — délégué à la protection des données	Pertinence

💡 En tant que PO, vous spécifiez ce dataset. Les développeurs l'intègrent dans LangSmith. Chaque déploiement exécute ces tests automatiquement — si le score baisse, le déploiement est bloqué.

7. LangSmith vs Concurrents

Outil	Focus	Pour le PO
LangSmith	Tracing + Évaluation + Datasets	⭐⭐⭐ La plus complète
Weights & Biases	ML experiment tracking	⭐⭐ Plutôt data scientist
Arize AI	Monitoring production	⭐⭐ Supervision production
Helicone	Coûts & latence	⭐ Budget et perf

💡 Le mot du formateur

LangSmith est l'outil d'observability le plus adopté dans l'écosystème LLM. Si votre équipe utilise LangChain (le framework le plus répandu), LangSmith s'intègre en une ligne de code. En entretien, mentionnez LangSmith quand on vous demande "Comment garantissez-vous la qualité de votre assistant IA ?" — c'est une réponse qui fait la différence.

← Module précédent Module suivant : Agent Chaining →