Le Transformer est une architecture de réseau de neurones conçue pour traiter des séquences de données en analysant l’ensemble des éléments simultanément. Ce mécanisme permet de modéliser des relations complexes entre des mots ou des signaux distants sans dépendre d’un ordre de lecture strict.
À RETENIR
Qu’est-ce qu’un transformer ?
- Le mécanisme d’auto-attention permet au modèle de pondérer l’importance de chaque élément d’une séquence par rapport aux autres, indépendamment de leur distance physique.
- Contrairement aux réseaux récurrents, le Transformer traite les données en parallèle, ce qui réduit drastiquement les temps d’entraînement sur des infrastructures de calcul massives.
- L’architecture repose sur un encodage positionnel qui réinjecte l’information de l’ordre des éléments et compensa ainsi l’absence de traitement séquentiel inhérent.
- Ce modèle est devenu la base technique des systèmes de génération de texte et de traduction automatique.
Le mécanisme d’attention pondère les relations entre chaque élément de la séquence
Les anciens modèles de traitement du langage lisaient les données mot après mot. Le Transformer abandonne cette contrainte en traitant toute la séquence d’entrée en une seule opération matricielle. Cette approche exploite pleinement la puissance de calcul parallèle des processeurs graphiques.
Le calcul des scores d’attention selon le contexte environnant
Le mécanisme d’attention calcule un score de pertinence entre chaque mot et tous les autres mots de la phrase. Si le modèle traite le mot banque, il regarde les autres termes du contexte pour décider s’il s’agit d’un établissement financier ou d’un bord de rivière. Ce calcul est effectué via des vecteurs de requête, de clé et de valeur qui permettent au modèle de focaliser son calcul sur les segments les plus informatifs.
| Mot cible | Contexte | Score d’attention | Sens final |
| Banque | « …déposer un chèque au guichet… » | chèque, guichet | Établissement financier |
| Banque | « …s’installer sur la banque de sable… » | sable, rivière | Élément géographique |
| Banque | « …consulter la banque de données… » | données, serveur | Stockage informatique |
Comme le modèle ne lit pas les données dans l’ordre, il perd naturellement la notion de structure temporelle. Pour corriger cela, une signature mathématique (encodage positionnel) est ajoutée aux données d’entrée. Cette valeur permet au réseau de distinguer la position de chaque élément dans la séquence sans avoir besoin de le lire séquentiellement. Cette méthode garantit que la syntaxe et la structure grammaticale restent exploitables par les couches de calcul suivantes.
Les réseaux de neurones récurrents face à l’efficacité du Transformer
Les réseaux récurrents classiques (RNN) traitaient les données comme une file d’attente. Chaque état dépendait du précédent, ce qui rendait impossible toute parallélisation du calcul. Si une phrase était longue, les premières informations étaient oubliées par le modèle.
| Caractéristique | Réseau récurrent (RNN) | Transformer |
|---|---|---|
| Traitement | Séquentiel | Parallèle |
| Dépendance longue | Difficile | Directe |
| Vitesse d’entraînement | Faible | Élevée |
| Gestion du contexte | Limité par la mémoire | Global sur toute la séquence |
Le Transformer résout cette limite en créant des chemins d’accès directs entre tous les éléments de la séquence. Peu importe la longueur du texte, le modèle peut relier le premier mot au dernier en une seule étape de calcul. Cette capacité de connexion directe rend les modèles beaucoup plus stables lors de l’apprentissage sur des bases de données de plusieurs téraoctets.
La consommation mémoire croît avec le carré de la longueur de la séquence
Le principal point faible du Transformer réside dans son coût de calcul. Comme chaque mot est comparé à tous les autres, la mémoire nécessaire augmente de manière quadratique par rapport à la longueur de la séquence traitée. Doubler la longueur d’un texte multiplie par quatre la puissance de calcul requise. Cette limite impose des restrictions sur la taille des documents qu’un modèle peut traiter en une seule fois. Des recherches sont en cours pour créer des mécanismes d’attention plus économes, mais le coût matériel reste un frein majeur pour les déploiements à très grande échelle.
Le Transformer est-il un modèle de langage ?
Non, c’est une architecture de réseau de neurones. Il peut être utilisé pour le langage, mais aussi pour l’analyse d’images, de signaux audio ou de séquences biologiques.
Pourquoi parle-t-on d’auto-attention ?
Le terme désigne le fait que le modèle calcule l’attention des mots d’une séquence par rapport aux autres mots de la même séquence, sans aide extérieure.
Peut-on utiliser un Transformer sur un ordinateur standard ?
L’inférence (l’utilisation du modèle) est possible sur du matériel grand public, mais l’entraînement nécessite des clusters de GPU puissants pour gérer les calculs matriciels.
