Attention Voir sur la page du cours pour les consignes pour le rendu.
La tâche de réponse à des question reste un problème délicat pour les gros modèles de langues, même les plus avancés, en particulier quand il s’agit de questions portant sur des sujets spécialisés. L’objectif de ce projet est d’évaluer différentes stratégies de question-réponse.
On travaillera sur le dataset medalpaca/medical_meadow_medical_flashcards accessible sur HuggingFace. Il s’agit d’un ensemble de questions et réponses utilisé par des étudiant⋅e⋅s en médecine pour réviser leurs connaissances. Les réponses prennent la forme d’une phrase, par exemple:
Question: What is the relationship between very low Mg2+ levels, PTH levels, and Ca2+ levels?
Réponse: Very low Mg2+ levels correspond to low PTH levels which in turn results in low Ca2+ levels.
Le dataset ne fournit pas de protocole d’évaluation ni même de sous-ensemble pour l’évaluation, ce sera donc à vous de le définir.
Voici une suggestion de quelques méthodes.
La méthode la plus simple est de poser la question directement à un chatbot.
Variantes et questions:
On peut essayer d’améliorer la réponse en guidant plus le LLM, par exemple avec le template suivant:
You are a medicine student. Answer the following question with only one sentence.
{question}
Variantes et questions:
Cette fois-ci, on va adapter les poids du réseau pour améliorer les performances sur notre tâche. L’objectif est double: sur le fond on veut augmenter la factualité des réponses et sur la forme on veut obtenir des réponses dans le même style que le dataset.
Variantes et questions:
Les méthodes RAG et à base d’agent permettent d’enrichir la réponse d’un LLM à partir d’une source de données externe, par exemple une base de données ou un moteur de recherche.
Variantes et questions:
Il n’y a pas de découpage fourni, il faudra le définir vous-même. Même si dans le cas général on insiste systématiquement sur l’utilisation d’une validation croisée, on évitera ici, pour des raisons de puissances de calcul.
Il peut être intéressant de prendre un petit sous-ensemble de test pour limiter le temps de calcul lors de l’évaluation.
Il n’est pas attendu que toutes les pistes suggérées plus haut soit explorées, ni que votre travail se limite à ces pistes. Les idées originales, les combinaisons d’idées, etc, sont plus que bienvenues. L’important est d’expliquer clairement ce que vous proposez et surtout de le motiver.
On peut tout à fait éviter certaines pistes pour des raisons de puissances de calcul.
L’évaluation ne portera pas sur les performances du modèle, mais plutôt sur la démarche et l’analyse des résultats. En d’autres termes, il n’est pas utile d’explorer exhaustivement toutes les variantes d’un même modèle pour améliorer un peu un score mais plutôt d’explorer des pistes variées pour avoir quelque chose à analyser et à commenter de façon plus intéressante.
Il n’y aura bien sûr aucune pénalité liée à des limites de puissance de calcul.
Le rendu se fera sous la forme d’un rapport d’une dizaine de pages, uniquement au format PDF et sans code.