Projet – Medical Question Answering

Attention Voir sur la page du cours pour les consignes pour le rendu.

La tâche de réponse à des question reste un problème délicat pour les gros modèles de langues, même les plus avancés, en particulier quand il s’agit de questions portant sur des sujets spécialisés. L’objectif de ce projet est d’évaluer différentes stratégies de question-réponse.

Description du projet

Dataset

On travaillera sur le dataset medalpaca/medical_meadow_medical_flashcards accessible sur HuggingFace. Il s’agit d’un ensemble de questions et réponses utilisé par des étudiant⋅e⋅s en médecine pour réviser leurs connaissances. Les réponses prennent la forme d’une phrase, par exemple:

Question: What is the relationship between very low Mg2+ levels, PTH levels, and Ca2+ levels?
Réponse: Very low Mg2+ levels correspond to low PTH levels which in turn results in low Ca2+ levels.

Le dataset ne fournit pas de protocole d’évaluation ni même de sous-ensemble pour l’évaluation, ce sera donc à vous de le définir.

Stratégies

Voici une suggestion de quelques méthodes.

Closed-book

La méthode la plus simple est de poser la question directement à un chatbot.

Variantes et questions:

LLM cloud
gros LLM local (avec Ollama ou HuggingFace)
petit LLM local
LLM spécialisé s’il en existe

Promp-engineering

On peut essayer d’améliorer la réponse en guidant plus le LLM, par exemple avec le template suivant:

You are a medicine student. Answer the following question with only one sentence.
{question}

Variantes et questions:

Différents prompts
Importance du prompt en fonction du modèle

Fine-tuning

Cette fois-ci, on va adapter les poids du réseau pour améliorer les performances sur notre tâche. L’objectif est double: sur le fond on veut augmenter la factualité des réponses et sur la forme on veut obtenir des réponses dans le même style que le dataset.

Variantes et questions:

Petit modèle fine-tuné VS gros modèle brut
Prompt engineering
Nombre de paramètres modifiés
Quantité de données utilisée

RAG & agents

Les méthodes RAG et à base d’agent permettent d’enrichir la réponse d’un LLM à partir d’une source de données externe, par exemple une base de données ou un moteur de recherche.

Variantes et questions:

Recherche sur le Web
Wikipedia
Bases de données spécialisées s’il en existe

Protocole d’évaluation

Découpage train/test

Il n’y a pas de découpage fourni, il faudra le définir vous-même. Même si dans le cas général on insiste systématiquement sur l’utilisation d’une validation croisée, on évitera ici, pour des raisons de puissances de calcul.

Il peut être intéressant de prendre un petit sous-ensemble de test pour limiter le temps de calcul lors de l’évaluation.

Scores

ROUGE, BLEU: comparaison syntaxique entre les phrases.
LLM-as-a-judge: utilisation d’un LLM pour décider si les phrases ont le même sens.
Exact-Match est à éviter car les réponses sont des phrases.

Autres analyses

Analyse qualitative: vérifier manuellement la qualité des réponses, à la fois sur la forme et sur le fond (dans la mesure du possible évidemment).
Influence de la quantité de données pour le fine-tuning.
Temps d’inférence.
Taille des modèles.

Attendus

Pistes à explorer

Il n’est pas attendu que toutes les pistes suggérées plus haut soit explorées, ni que votre travail se limite à ces pistes. Les idées originales, les combinaisons d’idées, etc, sont plus que bienvenues. L’important est d’expliquer clairement ce que vous proposez et surtout de le motiver.

On peut tout à fait éviter certaines pistes pour des raisons de puissances de calcul.

Performances

L’évaluation ne portera pas sur les performances du modèle, mais plutôt sur la démarche et l’analyse des résultats. En d’autres termes, il n’est pas utile d’explorer exhaustivement toutes les variantes d’un même modèle pour améliorer un peu un score mais plutôt d’explorer des pistes variées pour avoir quelque chose à analyser et à commenter de façon plus intéressante.

Il n’y aura bien sûr aucune pénalité liée à des limites de puissance de calcul.

Rapport

Le rendu se fera sous la forme d’un rapport d’une dizaine de pages, uniquement au format PDF et sans code.

Outils et FAQ

Modèles cloud

OpenAI avec la clé d’API fournie.M erci de vous limiter à des modèles pas trop coûteux et d’être raisonnables sur la quantité d’expériences.
OpenRouter avec les modèles gratuits (il faudra créer un compte; attention parfois les modèles gratuits sont très longs à donner une réponse).

Modèles locaux

En inférence seulement: Ollama
Pour le fine-tuning, utilisre les bibliothèques HuggingFace

Fine-tuning cloud

OpenAI fournit une API pour adapter leurs modèles à nos données, c’est à éviter dans le cadre du projet car c’est beaucoup trop coûteux.

Puissance de calcul

GPU: Google Colab fournit un GPU utilisable pour des petites expériences
Fine-tuning: si votre ordinateur n’est pas assez puissant, vous pouvez tout à fait éviter complètement le fine-tuning ou ne le faire que de façon symbolique (très peu d’epoch, très peu de données d’entrée).
Évaluation: l’évaluation sur beaucoup d’exemples peut être coûteuse en elle-même, vous pouvez tout à fait vous limiter à un faible nombre d’exemples.

Moteurs de recherche

Web: parmi les moteurs de recherche généraliste, DuckDuckGo est encore utilisable facilement. On peut utiliser un module LangChain pour y accéder facilement.
Wikipedia: il existe également un module LangChain