Files
ArtStudies/M2/Generative AI/TP1/TP1 RAG.ipynb
Arthur DANJOU 3e6b2e313a Add langchain-text-splitters dependency to pyproject.toml and uv.lock
- Updated pyproject.toml to include langchain-text-splitters version >=1.1.0 in dependencies.
- Modified uv.lock to add langchain-text-splitters in both dependencies and requires-dist sections.
2026-01-12 10:48:31 +01:00

1396 lines
79 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
{
"cells": [
{
"cell_type": "markdown",
"id": "8514812a",
"metadata": {},
"source": [
"# TP2 - Retrieval Augmented Generation\n",
"\n",
"Dans ce TP nous allons construire un système RAG complet : base de connaissance, vectorisation et appel avec un modèle de langage.\n",
"\n",
"Certaines fonctions seront réutilisées dans les prochaines séances, nous encourageons donc la définition de fonction générale, optimisée et robuste. Il est à garder en tête que ce notebook n'a qu'une portée pédagogique et n'est pas forcément à jour puisque le domaine évolue rapidement.\n",
"\n",
"Dans ce TP nous cherchons à apporter des connaissances Machine Learning, bien que le modèle en ait largement, en utilisant des cours au format PDF à notre disposition. \n",
"\n",
"\n",
"## Constitution de la base de connaissance\n",
"\n",
"Pour construire un RAG, il faut commencer par une base de connaissance. Elle sera composée dans notre cas de document PDF. Nous allons commencer par extraire les informations texte contenue dans les documents.\n",
"\n",
"**Consigne** : À partir des fichiers disponible, construire une fonction `pdf_parser` qui prend en paramètre le nom du fichier et qui renvoie le texte associé. On utilisera la classe [`PyPDFLoader`](https://python.langchain.com/docs/how_to/document_loader_pdf/#simple-and-fast-text-extraction) et sa méthode `load` pour charger le document.\n"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "6a4a00a2",
"metadata": {},
"outputs": [],
"source": [
"from langchain_community.document_loaders import PyPDFLoader\n",
"\n",
"def pdf_parser(file_path: str):\n",
" loader = PyPDFLoader(file_path=file_path)\n",
" return loader.load()"
]
},
{
"cell_type": "markdown",
"id": "77905595",
"metadata": {},
"source": [
"**Consigne** : Utiliser la fonction `pdf_parser` pour charger le fichier 'ML.pdf' puis inspecter son contenu."
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "8ec332e6",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"page_content='Chapitre 1\n",
"Introduction au Machine Learning\n",
"Les termes dintelligence artificielle (IA) et Machine Learning (ML) sont fréquemment confondu et\n",
"leur hiérarchie nest pas toujours clair. Unalgorithme est une séquence dinstructions logique ordonnée\n",
"pour répondre explicitement à un problème. Par exemple, une recette de cuisine est un algorithme, mais\n",
"tous les algorithmes ne sont pas des recettes de cuisine. Un algorithme dintelligence dartificielle est un\n",
"algorithme, mais il nest pas explicitement construit pour répondre à un problème : il va sadapter. Sil\n",
"sappuie sur des données, alors on parle dalgorithme de Machine Learning1.\n",
"Le terme dintelligence artificielle vient de la conférence de Dartmouth en 1957 où lobjectif était de\n",
"copier le fonctionnement des neurones. Mais les concepts dintelligence artificielle était déjà proposé par\n",
"Alan Turing, et la méthode des moindres carrés de Legendre (la fameuse tendance linéaire dans Excel)\n",
"date de bien avant 1957. Depuis, le domaine sest structuré autour dune philosophie douverture. Ainsi,\n",
"nous avons des datasets commun, des algorithmes identiques et des compétitions commune pour pouvoir\n",
"progresser ensemble.\n",
"Nous proposons dans ce chapitre dintroduire les différentes approches du Machine Learning et les\n",
"grands principes. Pour le rendre aussi général que possible, nous ne discuterons pas dalgorithmes en\n",
"particulier, mais supposerons que nous en avons un. La description de ces objets sera le coeur des prochains\n",
"chapitre.\n",
"1.1 Les différentes approches du Machine Learning\n",
"Quand on parle de Machine Learning, on parle dun grand ensemble contenant plusieurs approches\n",
"différentes. Leur point commun est que la donnée est la source de lapprentissage de paramètres optimaux\n",
"selon une procédure donnée. Pour saisir les différences entre ces approches, regardons ce dont chacune a\n",
"besoin pour être suivie.\n",
"• Apprentissage supervisé: je dispose dune base de données qui contient une colonne que je\n",
"souhaite prédire\n",
"• Apprentissage non-supervisé: je dispose seulement dune base de données composée dindicateurs\n",
"Ces deux approches représentent lécrasante majorité des utilisations en entreprise. Se développe\n",
"également une troisième approche : lapprentissage par renforcement, qui nécessiterai un cours dédié2.\n",
"Au sein de ces deux grandes approches se trouvent des sous catégories :\n",
"• Apprentissage supervisé: je dispose dune base de données qui contient une colonne que je\n",
"souhaite prédire qui est ...\n",
" Régression: ... une valeur continue\n",
"1. Et si la classe dalgorithme est un réseau de neurone, alors on parle de Deep Learning. Ce nest pas au programme du\n",
"cours.\n",
"2. Elle est au coeur de lalignement des modèles de langage avec la préférence humaine par exemple.\n",
"6' metadata={'producer': 'pdfTeX-1.40.26', 'creator': 'TeX', 'creationdate': '2025-07-20T15:41:06+02:00', 'moddate': '2025-07-20T15:41:06+02:00', 'trapped': '/False', 'ptex.fullbanner': 'This is pdfTeX, Version 3.141592653-2.6-1.40.26 (TeX Live 2024) kpathsea version 6.4.0', 'source': 'ML.pdf', 'total_pages': 140, 'page': 5, 'page_label': '6'}\n"
]
}
],
"source": [
"ml_doc = pdf_parser(\"ML.pdf\")\n",
"print(ml_doc[5])"
]
},
{
"cell_type": "markdown",
"id": "0473470e",
"metadata": {},
"source": [
"Nous avons du texte et des métadonnées. Nous commençerons par nous concentrer sur le texte. Pour qu'il puisse être digérer par le RAG, nous devons le découper en plusieurs *chunk*. La classe [`CharacterTextSplitter`](https://python.langchain.com/api_reference/text_splitters/character/langchain_text_splitters.character.CharacterTextSplitter.html) permet de réaliser cette opération."
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "bea1f928",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Il y a 1471 chunks.\n"
]
}
],
"source": [
"from langchain.text_splitter import CharacterTextSplitter\n",
"\n",
"text_splitter = CharacterTextSplitter(\n",
" separator=\"\\n\",\n",
" chunk_size=256,\n",
" chunk_overlap=0,\n",
" length_function=len,\n",
" is_separator_regex=False,\n",
")\n",
"\n",
"texts = text_splitter.split_documents(documents=ml_doc)\n",
"print(f\"Il y a {len(texts)} chunks.\")"
]
},
{
"cell_type": "markdown",
"id": "96d05d6a",
"metadata": {},
"source": [
"**Consigne** : Après avoir inspecté le contenu de la variable *texts*, afficher la distribution de la longueur des chunks."
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "b30cc5de",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 800x600 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"import numpy as np\n",
"import matplotlib.pyplot as plt\n",
"import seaborn as sns; sns.set_theme(style=\"whitegrid\")\n",
"\n",
"\n",
"length = np.array([len(doc.page_content) for doc in texts])\n",
"\n",
"plt.figure(figsize=(8, 6))\n",
"plt.hist(length)\n",
"plt.title(\"Distribution de la longueur des chunks\")\n",
"plt.xlabel(\"Nombre de caractères\")\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"id": "43bf41cd",
"metadata": {},
"source": [
"Nous observons des chunks avec très peu de caractères. Inspecter les contenus des documents avec moins de 100 caractères et noter les améliorations possibles."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "8d300959",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"INTRODUCTION AU MACHINE LEARNING\n",
"2022-2026\n",
"Théo Lopès-Quintas\n",
"------------------------------\n",
"vue un peu plus complète du domaine, ainsi quun aperçu plus récent des développements en cours.\n",
"2\n",
"------------------------------\n",
"3. À condition que lalgorithme soit performant.\n",
"7\n",
"------------------------------\n",
"Pour essayer de comprendre ce passage, faisons un exercice :\n",
"4. Voir léquation (2.3).\n",
"8\n",
"------------------------------\n",
"11\n",
"------------------------------\n",
"le résultat, on peut vérifier la cohérence de la formule avec un exercice.\n",
"15\n",
"------------------------------\n",
"valeur moyenne. La vision est donc bien complémentaire à celle de laRMSE.\n",
"17\n",
"------------------------------\n",
"• FP : Faux positif - une baisse identifiée comme une hausse\n",
"28\n",
"------------------------------\n",
"Lidée est de partitionner lespace engendré parD, dont voici la procédure à chaque étape :\n",
"33\n",
"------------------------------\n",
"définir ce que lon appelle intuitivementla meilleure coupure.\n",
"34\n",
"------------------------------\n",
"Devant cet exemple jouet, on peut imaginer une situation plus proche de la réalité :\n",
"37\n",
"------------------------------\n",
"Pour saisir lintérêt de la proposition, résolvons lexercice suivant.\n",
"38\n",
"------------------------------\n",
"40\n",
"------------------------------\n",
"des champions.\n",
"41\n",
"------------------------------\n",
"42\n",
"------------------------------\n",
"fm(x) = fm1(x) γ\n",
"nX\n",
"i=1\n",
"∂C\n",
"∂fm1\n",
"\u0000\n",
"x(i)\u0001\n",
"\u0010\n",
"yi, fm1\n",
"\u0010\n",
"x(i)\n",
"\u0011\u0011\n",
"= fm1(x) + γhm(x)\n",
"45\n",
"------------------------------\n",
"peut visualiser ce résultat avec la figure (5.3).\n",
"47\n",
"------------------------------\n",
"i (xi µk)\n",
"2. Conclure sur la convergence deJ.\n",
"53\n",
"------------------------------\n",
"pour amener le clustering vers sa meilleure version.\n",
"62\n",
"------------------------------\n",
"3. Que nous ne démontrerons pas\n",
"68\n",
"------------------------------\n",
"6. Puisquon peut normaliser la distance par rapport au voisin le plus éloigné.\n",
"71\n",
"------------------------------\n",
"2. Largement inspiré du schéma de Park ChangUk.\n",
"77\n",
"------------------------------\n",
"8. Avec des valeurs non nulle dans la majorité des coordonnées.\n",
"84\n",
"------------------------------\n",
"10. Pour plus de détails, voir la section (G.1)\n",
"88\n",
"------------------------------\n",
"11. Dépendant donc de la méthode de tokenization et de la taille du vocabulaire.\n",
"89\n",
"------------------------------\n",
"Appendices\n",
"93\n",
"------------------------------\n",
"donner. Il nous faudrait une caractérisation plus simple dutilisation :\n",
"95\n",
"------------------------------\n",
"existe deux minimaux globaux et on aboutit à une absurdité en exploitant la stricte convexité.\n",
"98\n",
"------------------------------\n",
"∥xi∥. Alors lak-ième erreur de classification du perceptron aura lieu avant :\n",
"k ⩽\n",
"\u0012R\n",
"γ\n",
"\u00132\n",
"∥w∥2\n",
"103\n",
"------------------------------\n",
"P({y = k}) × P\n",
"\n",
"\n",
"d\\\n",
"j=1\n",
"xj | {y = k}\n",
"\n",
"\n",
"P\n",
"\n",
"\n",
"d\\\n",
"j=1\n",
"xj\n",
"\n",
"\n",
"(C.1)\n",
"109\n",
"------------------------------\n",
"exploratoire et daugmentation des données pour répondre à un problème de Machine Learning.\n",
"113\n",
"------------------------------\n",
"aléatoirement entre1 et 1. Puis on normalise le vecteurx.\n",
"114\n",
"------------------------------\n",
"époque il y avait également Yann Le Cun, à la tête de la recherche chez Meta.\n",
"116\n",
"------------------------------\n",
"118\n",
"------------------------------\n",
"2. Kernel en allemand.\n",
"125\n",
"------------------------------\n",
"saméliore! Deux phénomènes contre-intuitifs se réalisent :\n",
"132\n",
"------------------------------\n",
"computing. In Proceedings of the AAAI Conference on Artificial Intelligence, 2015.\n",
"139\n",
"------------------------------\n"
]
}
],
"source": [
"for doc in texts:\n",
" if len(doc.page_content) < 100:\n",
" print(doc.page_content)\n",
" print(\"-\" * 30)"
]
},
{
"cell_type": "markdown",
"id": "f69b2033",
"metadata": {},
"source": [
"Nous avons à présent un ensemble de chunk, il nous reste à construire l'embedding pour stocker toute ces informations. Nous faisons les choix suivants :\n",
"* Nous utiliserons l'embedding [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) pour sa taille et son entraînement spécifique à notre tâche\n",
"* Nous utiliserons le *vector store* [FAISS](https://python.langchain.com/docs/integrations/vectorstores/faiss/) puisque nous l'avons couvert en cours.\n",
"* Nous récupérerons les trois chunks les plus proches, pour commencer"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "40021b12",
"metadata": {},
"outputs": [],
"source": [
"from langchain_huggingface import HuggingFaceEmbeddings\n",
"from langchain_community.vectorstores import FAISS\n",
"import os\n",
"\n",
"os.environ['USE_TF'] = 'false'\n",
"os.environ['USE_TORCH'] = 'true'\n",
"os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'\n",
"\n",
"\n",
"embedding_model = HuggingFaceEmbeddings(model_name=\"all-MiniLM-L6-v2\")\n",
"vectordb = FAISS.from_documents(texts, embedding_model)\n",
"n_doc_to_retrieve = 3\n",
"retriever = vectordb.as_retriever(search_kwargs={\"k\": n_doc_to_retrieve})"
]
},
{
"cell_type": "markdown",
"id": "ed148169",
"metadata": {},
"source": [
"Notre base de connaissance est réalisée ! Passons maintenant à l'augmentation du modèle de langage.\n",
"\n",
"## Génération\n",
"\n",
"Pour cette étape, il nous reste à définir le modèle de langage et comment nous allons nous adresser à lui.\n",
"\n",
"**Consigne** : Définir la variable *model* à partir de la classe [OllamaLLM](https://python.langchain.com/api_reference/ollama/llms/langchain_ollama.llms.OllamaLLM.html#ollamallm) et du modèle de votre choix."
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "4abfbda6",
"metadata": {},
"outputs": [],
"source": [
"from langchain_ollama import OllamaLLM\n",
"\n",
"model = OllamaLLM(model=\"gemma3:4b\")"
]
},
{
"cell_type": "markdown",
"id": "d42c7f56",
"metadata": {},
"source": [
"**Consigne** : À l'aide de la classe [PromptTemplate](https://python.langchain.com/api_reference/core/prompts/langchain_core.prompts.prompt.PromptTemplate.html#langchain_core.prompts.prompt.PromptTemplate) et en s'inspirant éventuellement de [cet exemple](https://smith.langchain.com/hub/rlm/rag-prompt), définir un template de prompt qui aura deux *input_variable* : 'context' et 'question'."
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "2c3c7729",
"metadata": {},
"outputs": [],
"source": [
"from langchain_core.prompts import PromptTemplate\n",
"\n",
"prompt_template = PromptTemplate(\n",
" template=\"\"\"\n",
" You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. \n",
" If you don't know the answer, just say that you don't know. Answer in the language of the question asked.\n",
"\n",
" Question: {question}\n",
" Context:\\n{context}\n",
" Answer:\n",
" \"\"\",\n",
" input_variables=[\"context\", \"question\"]\n",
")"
]
},
{
"cell_type": "markdown",
"id": "0da52ea4",
"metadata": {},
"source": [
"Pour construire la chaîne de RAG, LangChain utilise le [LangChain Expression Language (LCEL)](https://python.langchain.com/v0.2/docs/concepts/#langchain-expression-language-lcel), voici dans notre cas comment cela se traduit :"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "c51afe07",
"metadata": {},
"outputs": [],
"source": [
"from langchain_core.runnables import RunnablePassthrough\n",
"from langchain_core.output_parsers import StrOutputParser\n",
"\n",
"def format_docs(docs):\n",
" return \"\\n\\n\".join(doc.page_content for doc in docs)\n",
"\n",
"\n",
"rag_chain = (\n",
" {\"context\": retriever | format_docs, \"question\": RunnablePassthrough()}\n",
" | prompt_template\n",
" | model\n",
" | StrOutputParser()\n",
")"
]
},
{
"cell_type": "markdown",
"id": "7db86940",
"metadata": {},
"source": [
"Une fois la chaîne définie, nous pouvons lui poser des questions :"
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "02444b65",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Answer: Nous ne pouvons quavoir un aperçu du futur, mais cela suffit pour comprendre quil y a beaucoup à faire.\n",
"— Alan Turing (1950)\n"
]
}
],
"source": [
"query = \"Quelle est la citation d'Alan Turing ?\"\n",
"result = rag_chain.invoke(query)\n",
"print(\"Answer:\", result)"
]
},
{
"cell_type": "markdown",
"id": "3ffe0531",
"metadata": {},
"source": [
"LangChain ne permet pas nativement d'afficher quels chunks ont été utilisé pour produire la réponse, ni le score de similarité. Pour le faire, nous allons utiliser directement FAISS.\n",
"\n",
"**Consigne** : À l'aide de la méthode [`similarity_search_with_score`](https://python.langchain.com/v0.2/docs/integrations/vectorstores/llm_rails/#similarity-search-with-score) de `FAISS`, afficher les trois documents utilisé dans le RAG."
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "95d81fe2",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Similarity Score: 0.5376\n",
"Document Content: sentraîneront, propageant ainsi les biais des premiers. Évidemment les usages malveillants malgré un\n",
"travail sur la sécurité et la toxicité toujours plus important.\n",
"Finalement, la fameuse citation dAlan Turing est plus que jamais dactualité.\n",
"--------------------------------------------------\n",
"Similarity Score: 0.6169\n",
"Document Content: Cadre et approche du cours\n",
"Alan Turing publieComputing Machinery and Intelligenceen 1950 [Tur50], qui deviendra un article\n",
"fondamental pour lintelligence artificielle. Une citation devenue célèbre a motivé lécriture de ce cours :\n",
"--------------------------------------------------\n",
"Similarity Score: 0.6388\n",
"Document Content: Nous ne pouvons quavoir un aperçu du futur, mais cela suffit pour comprendre quil y a\n",
"beaucoup à faire.\n",
"— Alan Turing (1950)\n",
"Cest par cette vision des années 1950 que nous nous proposons de remonter le temps et de découvrir\n",
"--------------------------------------------------\n"
]
}
],
"source": [
"results_with_scores = vectordb.similarity_search_with_score(query, k=n_doc_to_retrieve)\n",
"\n",
"for doc, score in results_with_scores:\n",
" print(f\"Similarity Score: {score:.4f}\")\n",
" print(f\"Document Content: {doc.page_content}\")\n",
" print(\"-\" * 50)"
]
},
{
"cell_type": "markdown",
"id": "6aeeadf8",
"metadata": {},
"source": [
"Nous avons finalement bien défini notre premier RAG !\n",
"\n",
"## Amélioration de notre RAG\n",
"\n",
"Mais nous pouvons faire mieux, notamment afficher la source dans la génération pour que l'utilisateur puisse vérifier et mesurer les performances de notre RAG. Une fois que nous aurons réalisé ces deux améliorations, alors nous pourrons modifier plusieurs points techniques spécifique et mesurer l'apport en performance.\n",
"\n",
"### Exploiter les méta-données\n",
"\n",
"Nous avons utilisé la classe `PyPDFLoader` qui charge chaque page dans un document. Nous avons largement utilisé le contenu *page_content* mais l'attribut *metadata* contient deux informations qui nous intéressent : *source* et *page*. \n",
"\n",
"**Consigne** : Modifier la fonction `format_doc` pour qu'elle prenne en paramètre une liste de document LangChain puis qu'elle affiche la source et la page en plus de seulement le contenu texte."
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "cae9a90c",
"metadata": {},
"outputs": [],
"source": [
"def format_docs(docs):\n",
" formatted = []\n",
" for doc in docs:\n",
" source = doc.metadata.get(\"source\", \"unknown\")\n",
" page = doc.metadata.get(\"page\", \"unknown\")\n",
" content = doc.page_content.strip()\n",
" formatted.append(f\"[Source: {source}, Page: {page+1}]\\n{content}\")\n",
" return \"\\n\\n\".join(formatted)"
]
},
{
"cell_type": "markdown",
"id": "0363d832",
"metadata": {},
"source": [
"Maintenant que nous passons des informations sur les métadonnées, il faut s'assurer que le modèle de langage les utilises.\n",
"\n",
"**Consigne** : Modifier le prompt template défini plus tôt pour intégrer cette règle."
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "a57e10a6",
"metadata": {},
"outputs": [],
"source": [
"prompt_template = PromptTemplate(\n",
" template=\"\"\"\n",
" You are an assistant for question-answering tasks. \n",
" Use the following retrieved pieces of context (with source and page information) to answer the question. \n",
" If you don't know the answer, just say that you don't know. Answer in the same language as the question.\n",
" When possible, cite the source and page in your answer. \n",
"\n",
" Question: {question}\n",
" Context:\\n{context}\n",
" Answer:\n",
" \"\"\",\n",
" input_variables=[\"context\", \"question\"]\n",
")"
]
},
{
"cell_type": "markdown",
"id": "260f39f4",
"metadata": {},
"source": [
"Testons à présent avec la même question sur une nouvelle chaîne RAG prenant en compte nos améliorations.\n",
"\n",
"**Consigne** : Définir un nouveau RAG prenant en compte les informations des méta-données, puis poser la même question."
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "b3824802",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Answer: Selon ML.pdf, page 92, la citation d'Alan Turing est : « Nous ne pouvons quavoir un aperçu du futur, mais cela suffit pour comprendre quil y a beaucoup à faire. »\n"
]
}
],
"source": [
"rag_chain = (\n",
" {\"context\": retriever | format_docs, \"question\": RunnablePassthrough()}\n",
" | prompt_template\n",
" | model\n",
" | StrOutputParser()\n",
")\n",
"\n",
"query = \"Quelle est la citation d'Alan Turing ?\"\n",
"result = rag_chain.invoke(query)\n",
"print(\"Answer:\", result)"
]
},
{
"cell_type": "markdown",
"id": "973dfa8d",
"metadata": {},
"source": [
"C'est ce que nous souhaitions obtenir ! Mais nous pourrions avoir un format un peu plus structuré et moins libre. Pour cela, nous allons modifier notre système pour qu'il renvoie des JSON !\n",
"Commençons par modifier le template de prompt pour lui donner les instructions :"
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "d4892e8d",
"metadata": {},
"outputs": [],
"source": [
"prompt_template = PromptTemplate(\n",
" template=\"\"\"\n",
" You are an assistant for question-answering tasks, use the retrieved context to answer the question. Each piece of context includes metadata (source + page).\n",
" If you dont know the answer, respond with: {{\"answer\": \"I don't know\", \"sources\": []}}\n",
" Otherwise, return your answer in JSON with this exact structure:\n",
" {{\n",
" \"answer\": \"your answer here\",\n",
" \"sources\": [\"source:page\", \"source:page\"]\n",
" }}\n",
" Rules:\n",
" - Answer in the same language as the question.\n",
" - Always include the sources (source:page).\n",
" - Never add extra fields.\n",
"\n",
" Question: {question}\n",
" Context:\\n{context}\n",
" Answer:\n",
" \"\"\",\n",
" input_variables=[\"context\", \"question\"]\n",
")"
]
},
{
"cell_type": "markdown",
"id": "01e34935",
"metadata": {},
"source": [
"Puisque nous demandons ici de répondre par exemple : '['ML.pdf:91\"], nous allons lui faciliter la tâche en modifiant la fonction `format_docs`.\n",
"\n",
"**Consigne** : Modifier la fonction `format_docs` pour prendre en compte le formattage 'source:page'."
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "547f6ea2",
"metadata": {},
"outputs": [],
"source": [
"def format_docs(docs):\n",
" formatted = []\n",
" for doc in docs:\n",
" source = doc.metadata.get(\"source\", \"unknown\")\n",
" page = doc.metadata.get(\"page\", \"unknown\")\n",
" content = doc.page_content.strip()\n",
" formatted.append(f\"[{source}:{page+1}]\\n{content}\")\n",
" return \"\\n\\n\".join(formatted)"
]
},
{
"cell_type": "markdown",
"id": "0238f9f6",
"metadata": {},
"source": [
"Si nous souhaitons obtenir un JSON, ou un dictionnaire, en sortie du modèle, nous devons modifier la chaîne RAG définie précédemment.\n",
"\n",
"**Consigne** : Remplacer la fonction [`JsonOutputParser`](https://python.langchain.com/api_reference/core/output_parsers/langchain_core.output_parsers.json.JsonOutputParser.html) à la place de [`StrOutputParser`](https://python.langchain.com/api_reference/core/output_parsers/langchain_core.output_parsers.string.StrOutputParser.html#langchain_core.output_parsers.string.StrOutputParser) puis tester la nouvelle chaîne RAG avec la même question."
]
},
{
"cell_type": "code",
"execution_count": 17,
"id": "c0f90db7",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Answer: {'answer': 'Nous ne pouvons quavoir un aperçu du futur, mais cela suffit pour comprendre quil y a beaucoup à faire.', 'sources': ['ML.pdf:2']}\n"
]
}
],
"source": [
"from langchain_core.output_parsers import JsonOutputParser\n",
"\n",
"\n",
"rag_chain = (\n",
" {\"context\": retriever | format_docs, \"question\": RunnablePassthrough()}\n",
" | prompt_template\n",
" | model\n",
" | JsonOutputParser()\n",
")\n",
"\n",
"query = \"Quelle est la citation d'Alan Turing ?\"\n",
"result = rag_chain.invoke(query)\n",
"print(\"Answer:\", result)"
]
},
{
"cell_type": "markdown",
"id": "3db037d1",
"metadata": {},
"source": [
"C'est mieux ! Il nous reste à présent à mesurer la performance de notre système.\n",
"\n",
"\n",
"### Mesurer les performances\n",
"\n",
"Nous avons défini manuellement plusieurs questions dont les réponses sont contenus dans le cours dans le fichier JSON *eval_dataset*."
]
},
{
"cell_type": "code",
"execution_count": 18,
"id": "d4398984",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"{'question': \"Qu'est-ce qu'un algorithme ?\", 'answer': 'Un algorithme est une séquence dinstructions logique ordonnée pour répondre explicitement à un problème.', 'sources': 'ML.pdf:6'}\n"
]
}
],
"source": [
"import json\n",
"with open(\"eval_dataset.json\", \"r\", encoding=\"utf-8\") as file:\n",
" eval_dataset = json.load(file)\n",
"\n",
"print(eval_dataset[0])"
]
},
{
"cell_type": "markdown",
"id": "37b8eb75",
"metadata": {},
"source": [
"Il sera probablement difficile de mesurer la performance de manière frontale. Ainsi, nous optons pour une méthodologie *LLM as a Judge*.\n",
"\n",
"**Consigne** : Définir une fonction `evaluate_rag` qui prend en paramètre une chaîne RAG et un dataset pour évaluation. La fonction renverra une liste de dictionnaire avec pour clés :\n",
"* *question* : la question posée\n",
"* *expected_answer* : la réponse attendue\n",
"* *predicted_answer* : la réponse obtenue\n",
"* *expected_sources* : la ou les sources attendues\n",
"* *predicted_sources* : la ou les sources obtenues"
]
},
{
"cell_type": "code",
"execution_count": 19,
"id": "4a3a70a4",
"metadata": {},
"outputs": [],
"source": [
"def evaluate_rag(rag_chain, dataset):\n",
" results = []\n",
" for example in dataset:\n",
" prediction = rag_chain.invoke(example[\"question\"])\n",
"\n",
" results.append({\n",
" \"question\": example[\"question\"],\n",
" \"expected_answer\": example[\"answer\"],\n",
" \"predicted_answer\": prediction[\"answer\"],\n",
" \"expected_sources\": example[\"sources\"],\n",
" \"predicted_sources\": prediction[\"sources\"]\n",
" })\n",
" return results"
]
},
{
"cell_type": "markdown",
"id": "da59e623",
"metadata": {},
"source": [
"**Consigne** : Tester la fonction précédente avec les trois premières questions puis afficher le résultat sous la forme d'un dataframe pandas."
]
},
{
"cell_type": "code",
"execution_count": 20,
"id": "a33db551",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[{'question': \"Qu'est-ce qu'un algorithme ?\", 'expected_answer': 'Un algorithme est une séquence dinstructions logique ordonnée pour répondre explicitement à un problème.', 'predicted_answer': \"Un algorithme est un objet dont nous supposerons l'existence, et dont la description sera le cœur des prochains chapitres.\", 'expected_sources': 'ML.pdf:6', 'predicted_sources': ['ML.pdf:6', 'ML.pdf:134']}, {'question': \"Qu'est-ce qu'un hackathon ?\", 'expected_answer': 'Un hackathon en Machine Learning est une compétition entre data-scientists (ou étudiants) dont le but est de trouver la meilleure manière de répondre à une tâche donnée.', 'predicted_answer': \"I don't know\", 'expected_sources': 'ML.pdf:10', 'predicted_sources': []}, {'question': \"Quel est l'inconvénient de la méthode Leave-One-Out Cross-Validation ?\", 'expected_answer': 'Lun des inconvénients majeur est que cela peut devenir très long et très coûteux en opération de calcul puisquil faut entraîner n fois lalgorithme sur presque lensemble du dataset', 'predicted_answer': \"L'inconvénient de la méthode Leave-One-Out Cross-Validation est que pour chaque point de données, le modèle est entraîné sur tous les autres points de données et testé sur le point de données restant. Cela peut entraîner des estimations de l'erreur beaucoup plus élevées que celles obtenues par la validation croisée standard.\", 'expected_sources': 'ML.pdf:10', 'predicted_sources': ['ML.pdf:10', 'ML.pdf:10', 'ML.pdf:128']}]\n"
]
}
],
"source": [
"results = evaluate_rag(rag_chain, dataset=eval_dataset[:3])\n",
"print(results)"
]
},
{
"cell_type": "markdown",
"id": "14393690",
"metadata": {},
"source": [
"Nous sommes capable d'obtenir un ensemble de réponse de la part d'un modèle avec un RAG, il nous reste à mettre en place le juge.\n",
"\n",
"**Consigne** : Définir un prompt pour décrire le rôle du juge."
]
},
{
"cell_type": "code",
"execution_count": 21,
"id": "a9eacd88",
"metadata": {},
"outputs": [],
"source": [
"judge_prompt = PromptTemplate(\n",
" template = \"\"\"\n",
" You are an evaluator. Your task is to compare a student's answer with the reference answer. \n",
" The student answer may still be valid even if it is phrased differently.\n",
"\n",
" Question: {question}\n",
" Reference Answer: {expected_answer}\n",
" Expected Sources: {expected_sources}\n",
"\n",
" Student Answer: {predicted_answer}\n",
" Student Sources: {predicted_sources}\n",
"\n",
" Evaluation Instructions:\n",
" - If the student's answer correctly matches the meaning of the reference answer, mark it as CORRECT. \n",
" - If it is wrong or missing important details, mark it as INCORRECT.\n",
" - For sources, check if the student listed at least the expected sources. Extra sources are allowed.\n",
" - Return your judgment strictly as JSON:\n",
" {{\n",
" \"answer_correct\": true/false,\n",
" \"sources_correct\": true/false,\n",
" }}\n",
" \"\"\",\n",
" input_variables=[\n",
" \"question\",\n",
" \"expected_answer\",\n",
" \"predicted_answer\",\n",
" \"expected_sources\",\n",
" \"predicted_sources\",\n",
" ]\n",
")"
]
},
{
"cell_type": "markdown",
"id": "bc714900",
"metadata": {},
"source": [
"**Consigne** : Définir une chaîne pour le juge, de la même manière que le RAG : prompt --> model --> JSONParser"
]
},
{
"cell_type": "code",
"execution_count": 22,
"id": "b3c30cc3",
"metadata": {},
"outputs": [],
"source": [
"judge_model = OllamaLLM(model=\"gemma3:4b\")\n",
"json_parser = JsonOutputParser()\n",
"\n",
"judge_chain = judge_prompt | judge_model | JsonOutputParser()"
]
},
{
"cell_type": "markdown",
"id": "6069627d",
"metadata": {},
"source": [
"**Consigne** : Modifier la fonction `evaluate_rag` pour qu'elle note directement la performance du modèle et renvoie sous forme d'un dataframe pandas les résultats. On implémentera également des mesures temporelles pour le RAG et le juge, ainsi que des blocs *try...except...* pour ne pas bloquer l'exécution de toutes les requêtes si une renvoie une erreur.\n",
"Pour pouvoir suivre l'avancement de l'évaluation, on utilisera la barre de progression tqdm."
]
},
{
"cell_type": "code",
"execution_count": 23,
"id": "0556cbed",
"metadata": {},
"outputs": [],
"source": [
"from tqdm import tqdm\n",
"import time\n",
"import pandas as pd\n",
"\n",
"\n",
"def evaluate_rag(rag_chain, dataset, judge_chain):\n",
" \"\"\"\n",
" Evaluate a RAG chain against a dataset using a judge LLM.\n",
"\n",
" Args:\n",
" rag_chain: LangChain RAG chain.\n",
" dataset: List of dicts with 'question', 'answer', 'sources'.\n",
" judge_chain: LangChain judge chain that outputs JSON with 'answer_correct', 'sources_correct', 'explanation'.\n",
"\n",
" Returns:\n",
" pandas.DataFrame with predictions, judgment, and timings.\n",
" \"\"\"\n",
" results = []\n",
"\n",
" iterator = tqdm(dataset, desc=\"Evaluating RAG\", unit=\"query\")\n",
"\n",
" for example in iterator:\n",
" rag_start = time.time()\n",
" try:\n",
" prediction = rag_chain.invoke(example[\"question\"])\n",
" except Exception as e:\n",
" prediction = {\"answer\": \"\", \"sources\": []}\n",
" print(f\"[RAG ERROR] Question: {example['question']} | {e}\")\n",
" rag_end = time.time()\n",
"\n",
" judge_input = {\n",
" \"question\": example[\"question\"],\n",
" \"expected_answer\": example[\"answer\"],\n",
" \"predicted_answer\": prediction.get(\"answer\", \"\"),\n",
" \"expected_sources\": example[\"sources\"],\n",
" \"predicted_sources\": prediction.get(\"sources\", []),\n",
" }\n",
"\n",
" judge_start = time.time()\n",
" try:\n",
" judgment = judge_chain.invoke(judge_input)\n",
" except Exception as e:\n",
" judgment = {\"answer_correct\": False, \"sources_correct\": False, \"explanation\": f\"Judge error: {e}\"}\n",
" print(f\"[JUDGE ERROR] Question: {example['question']} | {e}\")\n",
" judge_end = time.time()\n",
"\n",
" results.append({\n",
" **judge_input,\n",
" **judgment,\n",
" \"rag_time\": rag_end - rag_start,\n",
" \"judge_time\": judge_end - judge_start,\n",
" \"total_time\": judge_end - rag_start\n",
" })\n",
" \n",
" return pd.DataFrame(results)\n"
]
},
{
"cell_type": "markdown",
"id": "73d842ea",
"metadata": {},
"source": [
"**Consigne** : Utiliser cette fonction sur les trois premières question du dataset d'évaluation."
]
},
{
"cell_type": "code",
"execution_count": 24,
"id": "afad101d",
"metadata": {},
"outputs": [
{
"name": "stderr",
"output_type": "stream",
"text": [
"Evaluating RAG: 100%|██████████| 10/10 [00:46<00:00, 4.64s/query]\n"
]
},
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>question</th>\n",
" <th>expected_answer</th>\n",
" <th>predicted_answer</th>\n",
" <th>expected_sources</th>\n",
" <th>predicted_sources</th>\n",
" <th>answer_correct</th>\n",
" <th>sources_correct</th>\n",
" <th>rag_time</th>\n",
" <th>judge_time</th>\n",
" <th>total_time</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>Qu'est-ce qu'un algorithme ?</td>\n",
" <td>Un algorithme est une séquence dinstructions ...</td>\n",
" <td>Nous ne discuterons pas dalgorithmes en parti...</td>\n",
" <td>ML.pdf:6</td>\n",
" <td>[ML.pdf:6]</td>\n",
" <td>False</td>\n",
" <td>True</td>\n",
" <td>2.782175</td>\n",
" <td>1.656888</td>\n",
" <td>4.439065</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>Qu'est-ce qu'un hackathon ?</td>\n",
" <td>Un hackathon en Machine Learning est une compé...</td>\n",
" <td>I don't know</td>\n",
" <td>ML.pdf:10</td>\n",
" <td>[]</td>\n",
" <td>False</td>\n",
" <td>False</td>\n",
" <td>1.868308</td>\n",
" <td>1.657052</td>\n",
" <td>3.525366</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>Quel est l'inconvénient de la méthode Leave-On...</td>\n",
" <td>Lun des inconvénients majeur est que cela peu...</td>\n",
" <td>L'inconvénient de la méthode Leave-One-Out Cro...</td>\n",
" <td>ML.pdf:10</td>\n",
" <td>[ML.pdf:10, ML.pdf:128]</td>\n",
" <td>True</td>\n",
" <td>True</td>\n",
" <td>4.339367</td>\n",
" <td>1.844820</td>\n",
" <td>6.184189</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>Qu'est-ce que la régression polynomiale ?</td>\n",
" <td>Une régression polynomiale est une régression ...</td>\n",
" <td>Une régression polynomiale est une régression ...</td>\n",
" <td>ML.pdf:21</td>\n",
" <td>[ML.pdf:21]</td>\n",
" <td>True</td>\n",
" <td>True</td>\n",
" <td>3.342725</td>\n",
" <td>1.751531</td>\n",
" <td>5.094258</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>What is exercise 3.5 about ?</td>\n",
" <td>Mail classification</td>\n",
" <td>I don't know</td>\n",
" <td>ML.pdf:30</td>\n",
" <td>[]</td>\n",
" <td>False</td>\n",
" <td>False</td>\n",
" <td>2.151726</td>\n",
" <td>1.553353</td>\n",
" <td>3.705080</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5</th>\n",
" <td>Quel est l'autre nom du bagging ?</td>\n",
" <td>La solution donne son nom à la section : nous ...</td>\n",
" <td>Le bagging est également connu sous le nom da...</td>\n",
" <td>ML.pdf:39</td>\n",
" <td>[ML.pdf:40, ML.pdf:68]</td>\n",
" <td>True</td>\n",
" <td>True</td>\n",
" <td>2.952315</td>\n",
" <td>1.646025</td>\n",
" <td>4.598341</td>\n",
" </tr>\n",
" <tr>\n",
" <th>6</th>\n",
" <td>Qu'est-ce qu'une souche en Machine Learning ?</td>\n",
" <td>Les weak learners dAdaBoost sont appelés des ...</td>\n",
" <td>En Machine Learning, une souche (ou lineage) f...</td>\n",
" <td>ML.pdf:42</td>\n",
" <td>[ML.pdf:113]</td>\n",
" <td>False</td>\n",
" <td>True</td>\n",
" <td>4.658800</td>\n",
" <td>1.877533</td>\n",
" <td>6.536340</td>\n",
" </tr>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>Quelle sont les trois propriétés mathématiques...</td>\n",
" <td>Indiscernabilité, symétrie et sous-additivité</td>\n",
" <td>I don't know</td>\n",
" <td>ML.pdf:51</td>\n",
" <td>[]</td>\n",
" <td>False</td>\n",
" <td>False</td>\n",
" <td>2.128439</td>\n",
" <td>1.583463</td>\n",
" <td>3.711939</td>\n",
" </tr>\n",
" <tr>\n",
" <th>8</th>\n",
" <td>Pourquoi KMeans a été introduit ?</td>\n",
" <td>Kmeans++ : un meilleur départ\\nSuivre cette mé...</td>\n",
" <td>I don't know</td>\n",
" <td>ML.pdf:54</td>\n",
" <td>[]</td>\n",
" <td>False</td>\n",
" <td>False</td>\n",
" <td>1.878088</td>\n",
" <td>1.763518</td>\n",
" <td>3.641612</td>\n",
" </tr>\n",
" <tr>\n",
" <th>9</th>\n",
" <td>Dans quel article a été introduit le lemme de ...</td>\n",
" <td>Cette similitude est expliquée par le titre de...</td>\n",
" <td>Le lemme de Johnson-Lindenstrauss a été introd...</td>\n",
" <td>ML.pdf:63</td>\n",
" <td>[ML.pdf:64]</td>\n",
" <td>True</td>\n",
" <td>True</td>\n",
" <td>3.118761</td>\n",
" <td>1.801741</td>\n",
" <td>4.920507</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"</div>"
],
"text/plain": [
" question \\\n",
"0 Qu'est-ce qu'un algorithme ? \n",
"1 Qu'est-ce qu'un hackathon ? \n",
"2 Quel est l'inconvénient de la méthode Leave-On... \n",
"3 Qu'est-ce que la régression polynomiale ? \n",
"4 What is exercise 3.5 about ? \n",
"5 Quel est l'autre nom du bagging ? \n",
"6 Qu'est-ce qu'une souche en Machine Learning ? \n",
"7 Quelle sont les trois propriétés mathématiques... \n",
"8 Pourquoi KMeans a été introduit ? \n",
"9 Dans quel article a été introduit le lemme de ... \n",
"\n",
" expected_answer \\\n",
"0 Un algorithme est une séquence dinstructions ... \n",
"1 Un hackathon en Machine Learning est une compé... \n",
"2 Lun des inconvénients majeur est que cela peu... \n",
"3 Une régression polynomiale est une régression ... \n",
"4 Mail classification \n",
"5 La solution donne son nom à la section : nous ... \n",
"6 Les weak learners dAdaBoost sont appelés des ... \n",
"7 Indiscernabilité, symétrie et sous-additivité \n",
"8 Kmeans++ : un meilleur départ\\nSuivre cette mé... \n",
"9 Cette similitude est expliquée par le titre de... \n",
"\n",
" predicted_answer expected_sources \\\n",
"0 Nous ne discuterons pas dalgorithmes en parti... ML.pdf:6 \n",
"1 I don't know ML.pdf:10 \n",
"2 L'inconvénient de la méthode Leave-One-Out Cro... ML.pdf:10 \n",
"3 Une régression polynomiale est une régression ... ML.pdf:21 \n",
"4 I don't know ML.pdf:30 \n",
"5 Le bagging est également connu sous le nom da... ML.pdf:39 \n",
"6 En Machine Learning, une souche (ou lineage) f... ML.pdf:42 \n",
"7 I don't know ML.pdf:51 \n",
"8 I don't know ML.pdf:54 \n",
"9 Le lemme de Johnson-Lindenstrauss a été introd... ML.pdf:63 \n",
"\n",
" predicted_sources answer_correct sources_correct rag_time \\\n",
"0 [ML.pdf:6] False True 2.782175 \n",
"1 [] False False 1.868308 \n",
"2 [ML.pdf:10, ML.pdf:128] True True 4.339367 \n",
"3 [ML.pdf:21] True True 3.342725 \n",
"4 [] False False 2.151726 \n",
"5 [ML.pdf:40, ML.pdf:68] True True 2.952315 \n",
"6 [ML.pdf:113] False True 4.658800 \n",
"7 [] False False 2.128439 \n",
"8 [] False False 1.878088 \n",
"9 [ML.pdf:64] True True 3.118761 \n",
"\n",
" judge_time total_time \n",
"0 1.656888 4.439065 \n",
"1 1.657052 3.525366 \n",
"2 1.844820 6.184189 \n",
"3 1.751531 5.094258 \n",
"4 1.553353 3.705080 \n",
"5 1.646025 4.598341 \n",
"6 1.877533 6.536340 \n",
"7 1.583463 3.711939 \n",
"8 1.763518 3.641612 \n",
"9 1.801741 4.920507 "
]
},
"execution_count": 24,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"results = evaluate_rag(rag_chain, dataset=eval_dataset[:10], judge_chain=judge_chain)\n",
"results"
]
},
{
"cell_type": "markdown",
"id": "91231c6d",
"metadata": {},
"source": [
"**Consigne** : A partir des résultats précédents, donner des statistiques de performance du modèle."
]
},
{
"cell_type": "code",
"execution_count": 25,
"id": "59d821db",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Accuracy: 40.00%\n",
"Accuracy source: 60.00%\n",
"RAG time (avg): 2.92s\n",
"Judge time (avg): 1.71s\n",
"Total time (avg): 4.64s\n"
]
}
],
"source": [
"accuracy = results[\"answer_correct\"].astype(int).mean()\n",
"source_accuracy = results[\"sources_correct\"].astype(int).mean()\n",
"avg_rag_time = results[\"rag_time\"].mean()\n",
"avg_judge_time = results[\"judge_time\"].mean()\n",
"avg_total_time = results[\"total_time\"].mean()\n",
"\n",
"print(f\"Accuracy: {100 * accuracy:.2f}%\")\n",
"print(f\"Accuracy source: {100 * source_accuracy:.2f}%\")\n",
"print(f\"RAG time (avg): {avg_rag_time:.2f}s\")\n",
"print(f\"Judge time (avg): {avg_judge_time:.2f}s\")\n",
"print(f\"Total time (avg): {avg_total_time:.2f}s\")"
]
},
{
"cell_type": "markdown",
"id": "289c97f8",
"metadata": {},
"source": [
"## Pour aller plus loin\n",
"\n",
"Nous avons plusieurs axes d'améliorations, de manière non exhaustive :\n",
"* Une meilleure récupération du texte dans le PDF : par exemple utiliser [Docling](https://python.langchain.com/docs/integrations/document_loaders/docling/) ?\n",
"* Une meilleure manière de découper en *chunk* le texte : par exemple utiliser [RecursiveCharacterTextSplitter](https://python.langchain.com/api_reference/text_splitters/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html#recursivecharactertextsplitter), ou changer la taille des chunks...\n",
"* Un meilleur modèle d'embedding : voir le [leaderboard](https://huggingface.co/spaces/mteb/leaderboard) des embeddings\n",
"* Un meilleur retrieval : meilleure méthode pour chercher, par exemple [MMR](https://python.langchain.com/v0.2/docs/how_to/example_selectors_mmr/)\n",
"* De meilleurs prompt\n",
"* Une meilleure mesure de performance : plus de questions par exemple\n",
"\n",
"Nous encourageons l'étudiant à tester la ou les améliorations qu'ils souhaitent faire et surtout que les apports soit mesurés séparemment. On encourage également d'utiliser ses propres documents et son propre benchmark.\n",
"Pour accélérer encore un peu l'évaluation, on propose une version asynchrone de la fonction d'évaluation :"
]
},
{
"cell_type": "code",
"execution_count": 26,
"id": "7ae5fd5d",
"metadata": {},
"outputs": [],
"source": [
"import asyncio\n",
"from tqdm.asyncio import tqdm_asyncio\n",
"\n",
"async def evaluate_rag_async(rag_chain, dataset, judge_chain, max_concurrency=5):\n",
" \"\"\"\n",
" Async evaluation of a RAG chain against a dataset using a judge LLM.\n",
" \"\"\"\n",
" results = []\n",
" semaphore = asyncio.Semaphore(max_concurrency)\n",
"\n",
" async def process_example(example):\n",
" async with semaphore:\n",
" rag_start = time.time()\n",
" try:\n",
" prediction = await rag_chain.ainvoke(example[\"question\"])\n",
" except Exception as e:\n",
" prediction = {\"answer\": \"\", \"sources\": []}\n",
" print(f\"[RAG ERROR] Question: {example['question']} | {e}\")\n",
" rag_end = time.time()\n",
"\n",
" judge_input = {\n",
" \"question\": example[\"question\"],\n",
" \"expected_answer\": example[\"answer\"],\n",
" \"predicted_answer\": prediction.get(\"answer\", \"\"),\n",
" \"expected_sources\": example[\"sources\"],\n",
" \"predicted_sources\": prediction.get(\"sources\", []),\n",
" }\n",
"\n",
" judge_start = time.time()\n",
" try:\n",
" judgment = await judge_chain.ainvoke(judge_input)\n",
" except Exception as e:\n",
" judgment = {\"answer_correct\": False, \"sources_correct\": False, \"explanation\": f\"Judge error: {e}\"}\n",
" print(f\"[JUDGE ERROR] Question: {example['question']} | {e}\")\n",
" judge_end = time.time()\n",
"\n",
" results.append({\n",
" **judge_input,\n",
" **judgment,\n",
" \"rag_time\": rag_end - rag_start,\n",
" \"judge_time\": judge_end - judge_start,\n",
" \"total_time\": judge_end - rag_start\n",
" })\n",
"\n",
" tasks = [process_example(example) for example in dataset]\n",
" for f in tqdm_asyncio.as_completed(tasks, desc=\"Evaluating RAG\", total=len(dataset)):\n",
" await f\n",
"\n",
" return pd.DataFrame(results)\n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "studies",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.13.9"
}
},
"nbformat": 4,
"nbformat_minor": 5
}