Les sujets rayés ne sont plus disponibles.
Remarque: au vu du faible nombre de sujets pour le moment, ne pas hésiter à contacter quand même les encandrant⋅e⋅s de projets qui pourraient vous intéresser.
Le projet vise à concevoir un prototype fonctionnel de chatbot capable d’interroger les contenus du site interne du LIP6 et de fournir des réponses contextualisées, en facilitant l’accès à des informations dispersées tout en préservant la confidentialité des données.
L’objectif de ce projet est d’étudier l’application d’algorithmes d’apprentissage par renforcement profond à l’environnement Swimmer, dans le cas où l’agent est privé de certains capteurs.
L’objectif de ce projet est de caractériser des environnements Gymnasium par la quantité d’exploration uniforme qu’ils requièrent.
Un projet visant à étudier une attaque par canal auxiliaire contre les modèles de langue utilisés avec un accès à distance. Les objectifs incluent l’exploration de la littérature, la construction d’un dataset, la reproduction d’expériences, l’étude de l’impact de différents modèles et la validation des techniques de mitigation.
Ce projet vise à étudier des méthodes de classifications automatiques pour des vues aériennes d’images, afin de segmenter finement les populations d’arbres et de caractériser leur état de croissance. Il s’appuie sur des datasets existants et explore des approches allant de la classification supervisée à l’utilisation de modèles multimodaux texte-image.
Dans le domaine de la vision par ordinateur, CLIP est l’un des modèles de référence. Grâce à son entraînement multimodal texte-image, il permet en apprentissage zero-shot d’atteindre des performances état-de-lart sur des datasets traditionnellement traités par de l’apprentissage fermé. Ce projet vise à reconstruire un dataset texte-image similaire à celui utilisé pour CLIP et à étudier l’impact de la taille et de la qualité des datasets sur les performances des modèles.
The project aims to conduct a systematic comparative analysis of neural information retrieval (IR) models, exploring various architectures from sparse and dense dual-encoders to late and early interaction models, including LLM-based approaches. The intern will implement and evaluate these models on standard benchmarks, analyze tradeoffs in performance, and generate detailed comparison reports with visualizations. Additionally, there’s a secondary objective to propose novel approaches that could combine strengths of different model families.
Les grands modèles de langue sont de plus en plus utilisés pour générer des informations structurées suivant un schéma prédéfini. Ce projet étudie les limitations des techniques de Constrained Decoding pour la génération de données JSON conformes au schéma fourni, en se basant sur des benchmarks récents et en analysant la corrélation entre la forme des schémas et les résultats obtenus.
Le projet vise à améliorer le processus de clustering de protéines en exploitant les séquences protéiques pour déterminer des groupes fonctionnels. L’objectif est de prédire les fonctions d’une protéine en utilisant des réseaux de similarité et des embeddings, tout en abordant les défis des méthodes de clustering existantes.
Le projet vise à construire un graphe de connaissance à partir de données historiques de Studium, regroupant environ 15 000 fiches sur les membres des écoles et de l’Université de Paris entre le XIIe et le XVIe siècle. En utilisant des modèles de langage de grande taille (LLM), le projet se concentre sur l’extraction d’entités et de relations pour représenter sémantiquement les données dispersées, tout en appliquant des techniques modernes d’ingénierie d’invités pour améliorer la précision et la fiabilité des extraits.
Ce projet se concentre sur les algorithmes de génération automatique de texte utilisés dans les grands modèles de langue, en particulier ceux qui opèrent durant l’inférence. Il étudie diverses méthodes pour garantir que les textes générés respectent des contraintes spécifiques sans ajustement des paramètres du modèle. Les approches analysées incluent des techniques d’échantillonnage séquentiel et se terminent par une implantation et une comparaison expérimentale des résultats obtenus.
L’objectif du projet est de construire un benchmark diversifié et réaliste pour la détection de similarité de code binaire en exploitant des implémentations multi-langages de tâches identiques, puis d’évaluer les approches état de l’art sur ce nouveau benchmark.
Le projet vise à concevoir une méthode hybride de classification des polypes colorectaux par apprentissage multitâche utilisant la classification CONECCT9. Il se concentre sur l’intégration de jeux de données hétérogènes en imagerie médicale pour améliorer la gestion et l’accès à long terme des données.
L’objectif de ce PMIND est de réaliser une implémentation de l’algorithme d’apprentissage du modèle Macsum et d’expérimenter pour des problèmes de régression. Le travail comporte une étude bibliographique, la programmation en Python du modèle Macsum, et l’évaluation des performances des méthodes sur des jeux de données artificielles et réels.
Le projet vise à traduire la langue des signes par une syntaxe particulière développée pour améliorer la capacité à retranscrire cette langue. Typannot est un ensemble de caractères qui cherchent à décrire le mouvement. Vous comparerez les méthodes de la littérature pour obtenir les postures et développerez la méthode permettant de classer les postures en caractères liés à Typannot.
L’objectif du projet est de développer un moteur d’échecs capable de s’adapter dynamiquement au niveau et au style de jeu d’un joueur spécifique, en combinant analyse de parties historiques et adaptation en temps réel, puis d’évaluer rigoureusement sa capacité à maintenir des parties équilibrées et engageantes.
This project focuses on the digitization of ECG images, aiming to improve the accessibility and analysis of electrocardiogram data.
L’objectif du projet est de développer un moteur d’échecs capable de s’adapter dynamiquement au niveau et au style de jeu d’un joueur spécifique, en combinant analyse de parties historiques et adaptation en temps réel, puis d’évaluer rigoureusement sa capacité à maintenir des parties équilibrées et engageantes.