**Modèles de langues et accès à l’information**

# Exercice 1 - *Modèle* *de* *mots*

On va utiliser la bibliothèque `Gensim` qui fournit de nombreux outils
relatifs au pré-traitements et aux représentations du texte. On y trouve
notamment des architectures pré-entraînées pour les modèles de mots.

Les instructions d’installation sont disponibles ici
https://radimrehurek.com/gensim/.

On télécharge immédiatement un modèle pré-entraîné:

In [None]:
import gensim.downloader
model = gensim.downloader.load('word2vec-google-news-300')

Il s’agit un modèle de mot, de type *word2vec*: à chaque mot du
vocabulaire est associé un point dans un espace vectoriel:

In [None]:
model["queen"]

## Question 1

Observez la représentation ainsi obtenue. Quelle est la dimension du
vecteur représentant un mot ?

## Question 2

On peut comparer deux représentations avec:

In [None]:
model.similarity("queen", "king")

Cette similirité utilise le cosinus entre les vecteurs.

Comparez les similarités entres quelques mots. Par exemple

-   queen
-   king
-   woman
-   man

## Question 3

On peut avoir un aperçu du vocabulaire utilisé dans le modèle de la
façon suivante:

In [None]:
model.key_to_index

Combien y a-t-il de mots dans le vocabulaire ?

## Question 4

Avec `most_similar` on peut rechercher les mots les plus similaires à un
autre dans tout le vocabulaire.

Commentez la sortie de

In [None]:
model.most_similar('king')

## Question 5

Puisque nous utilisons un espace vectoriel, on peut faire de
l’arithmétique entre les représentations.

À quoi pourrait correspondre l’expression “king” - “man” + “queen” ?

## Question 6

Pour des raisons d’implémentation, on utilisera plutôt le code suivant:

In [None]:
model.most_similar(positive=["king", "woman"], negative=["man"])

Obtient-on le résultat espéré ?

## Question 7

Commentez la visualisation suivante de l’embedding, obtenue avec t-SNE.

![](attachment:figures/word2vec-tsne.webp)

## Question 8

Dans les deux phrases suivantes, quelle sera la représentation du mot
*bank*:

-   “We went to the river bank.”
-   “I will go to the bank to make a deposit.”

## Question 9

Comment représenter un mot inconnu ? (*out of vocabulary*)

## Question 10

Une façon possible de représenter une phrase est de moyenner tous les
mots qu’elle contient puis de normaliser le vecteur obtenu.

Écrivez une fonction calculant la représentation d’une phrase.

## Question 11

Écrivez une fonction calculant la similarité entre deux phrases.

## Question 12

À partir du dataset suivant, affichez la matrice de similarité de ces
phrases.

In [None]:
data = [
    'the road is straight',
    'the black cat plays with a ball',
    'a big dog with a ball',
    'dog and cat are together',
    'traffic jam on the 6th road',
    'white bird on a big tree',
    'a big truck',
    'two cars crashed',
    'two deers in a field',
    'I like ridding my bike',
    'a lion in the savane',
    'a motorcycle rides on the road',
    'a mouse bitten by a cat',
    'two pigs in the mood',
    'take a plane is sometimes slower than taking train',
    'take the highway'
]

# Exercice 2 - *Modèles* *de* *langue*

En terme d’implémentation la référence est la bibliothèque
`transformers` dévelopée par [Huggingface](https://huggingface.co).

Elle est associée à un catalogue de modèles disponible en
téléchargement, par exemple GPT2 est disponible à l’ adresse
<https://huggingface.co/openai-community/gpt2>.

## Question 13 - *(À* *regarder* *chez* *vous)*

Voir cette page pour un tutoriel complet
<https://huggingface.co/learn/nlp-course/chapter2/1>.

## Question 14 - *(À* *regarder* *à* *la* *fin)*

Utilisez GPT2 pour calculer des représentations de documents.

# Exercice 3 - *Accès* *à* *l’information* *et* **question* *answering**

On s’intéresse au problème de l’accès à l’information au travers de
l’exemple de la tâche de réponses aux questions.

## Question 15

Demandez à un LLM la date de naissance d’Harrisson Ford. Demandez-lui
votre date de naissance. Que se passe-t-il et pourquoi ?

## Question 16

Comment faire pour injecter ses propres connaissances dans le LLM ?

## Question 17

Essayez d’injecter des connaissances dans le prompt du LLM. Que se
passe-t-il si on augmenter le nombre de connaissances ?

## Question 18

Même si cette approche ne passe pas à l’échelle, elle est parfaitement
utilisable avec un faible nombre d’informations. Essayez par exemple le
prompt suivant:

    Answer only with the following context:
    - Harrisson Ford is an American actor
    - Harrisson Ford was born in 1942
    - Harrisson Ford portrayed Indiana Jones

    How old is Harrisson Ford ?

## Question 19

Comment s’assurer que le modèle utilise bien nos connaissances et pas sa
culture générale ?