📚 AVANT DE LANCER LA SIMU · 2 PHASES À COMPRENDRE

Un RAG, c'est 2 moments distincts.

RAG = Retrieval-Augmented Generation. L'idée : au lieu de demander à un LLM de "savoir" toute ta documentation (impossible et risqué), on lui donne les bons extraits au moment de répondre. Mais pour que ça marche, il faut d'abord préparer la base. C'est en 2 phases.

PHASE 01 · OFFLINE · UNE FOIS

Indexation — on prépare la base de connaissances

📄

1. DOCUMENTS

PDFs, pages web, tickets Jira, FAQ, contrats… Toutes tes sources internes.

✂️

2. CHUNKING

On découpe chaque doc en morceaux de 200-500 mots (chunks). Plus petit = plus précis.

🧬

3. EMBEDDING

Un modèle d'embedding (text-embedding-3, BGE…) transforme chaque chunk en vecteur qui capture le sens.

🗄️

4. STOCKAGE

On stocke les vecteurs dans une base vectorielle (Pinecone, Qdrant, pgvector) — comme un index ultra-rapide.

💡 Cette phase tourne avant que les utilisateurs posent la moindre question. On la relance quand on ajoute des documents (incrémental) ou quand on change de modèle d'embedding (re-index complet).

↓ MAINTENANT, UN UTILISATEUR POSE UNE QUESTION ↓

PHASE 02 · LIVE · À CHAQUE QUESTION

Requête — on répond à l'utilisateur

💬

1. QUESTION

L'utilisateur tape sa question dans le chat.

🧬

2. EMBEDDING

Le même modèle qu'à l'indexation transforme la question en vecteur.

🔍

3. RETRIEVAL

On cherche dans la base les 3-5 chunks les plus proches (distance cosinus).

🤖

4. LLM

On envoie au LLM (GPT, Claude, Llama…) un prompt = question + chunks récupérés.

✅

5. RÉPONSE

Le LLM rédige une réponse ancrée dans les chunks, avec citations.

💡 C'est cette phase que tu vas voir en simulation juste en bas. On simplifie : pas de vrai modèle d'embedding, pas de vrai LLM. Mais le flow est exactement celui-ci.

▼ CE QU'ON ENVOIE AU LLM (étape 4)

Tu es un assistant qui répond UNIQUEMENT à partir
des extraits ci-dessous. Ne fais pas de suppositions.
Cite tes sources avec [D1], [D2]…

CONTEXTE :
[D2] Politique de retour : Tu as 30 jours après réception
pour retourner un article. L'article doit être dans son
état d'origine, non utilisé...
[D1] Délais de livraison : Les commandes passées avant 14h
sont expédiées le jour même...

QUESTION : Comment retourner un colis ?

RÉPONSE :

Voilà. Le LLM reçoit ce prompt et génère la réponse. Aucune magie — juste une question augmentée avec le bon contexte.

🧪 À TON TOUR · LA SIMULATION

Pose une question. Vois la phase 02 se dérouler.

La phase 01 (indexation) a déjà été faite pour toi sur les 5 fiches d'aide ShopyMart. À toi de jouer la phase 02.

1 Embedding → 2 Retrieval → 3 Generation

📚 Base de connaissances · ShopyMart

5 fiches d'aide d'une boutique e-commerce fictive. C'est ici que l'IA va chercher.

💬 Ta question

Ou clique :

① Embedding · ta question → vecteur

L'IA convertit ta phrase en une signature numérique (vecteur). Chaque cellule = une dimension.

② Retrieval · top documents

L'IA compare le vecteur de ta question avec celui de chaque document. Plus le score est haut, plus le doc est pertinent.

③ Generation · réponse + citations

L'IA compose une réponse à partir des extraits récupérés. Les [D2] sont cliquables.

Pose une question pour voir la réponse apparaître ici.

🤔 POURQUOI PASSER PAR UN RAG ?

Sans RAG, le LLM invente. Avec RAG, il cite.

❌ SANS RAG

Tu poses la question directement au LLM

🔴 Il répond avec ce qu'il a "appris" pendant son entraînement (donc pas tes données métier)
🔴 Il hallucine quand il ne sait pas (invente des chiffres, des règles…)
🔴 Impossible de citer les sources : tu ne sais pas d'où vient l'info
🔴 Connaissances figées à la date du training (ex: pas tes nouveaux contrats)

✅ AVEC RAG

On fournit au LLM tes extraits avant qu'il réponde

🟢 Il s'appuie sur tes documents à toi (interne, à jour, fiable)
🟢 Tu peux lui dire : "si pas dans le contexte, dis 'je ne sais pas'"
🟢 Il cite ses sources ([D2], [page 14]…) — auditable
🟢 Tu mets à jour ta base = il a l'info à jour, sans re-entraîner le modèle

🔬 EN VRAI · CE QU'ON A SIMPLIFIÉ

Notre simu vs la vraie vie.

Composant	Notre simu	En production
Chunking	Pas de chunk : 1 doc = 1 fiche entière	Découpage en 200-500 tokens, avec overlap pour préserver le contexte
Embedding	Hash de caractères → 32 cellules visuelles	text-embedding-3 (OpenAI), BGE-large, Voyage → 768 à 3072 dimensions qui capturent le sens
Base vectorielle	Tableau JS en mémoire	Pinecone, Qdrant, Weaviate, pgvector — millions de docs en quelques ms
Retrieval	Score par overlap de mots-clés	Distance cosinus entre vecteurs + reranking (Cohere Rerank, BGE-reranker)
LLM (Generation)	Pas de LLM : on colle les extraits	GPT-4o, Claude Sonnet, Llama 3.3 70B reformulent, synthétisent et citent les sources
Latence totale	Instantané (tout local)	~800ms à 3s (embedding + retrieval + LLM streaming)

★ POUR ALLER PLUS LOIN

Le module 01 — Introduction à l'IA et le cheatsheet RAG vs Agent couvrent le sujet en profondeur — quand utiliser RAG vs fine-tuning, comment chunker, quel embedding choisir, et combien ça coûte.

Le RAG, en 3 étapes visuelles.