Voici comment une intelligence artificielle fondée sur le modèle Transformer présente l’importance des probabilités dans son propre fonctionnement.
Mécanisme d’attention :
Le modèle utilise des probabilités pour déterminer l’importance relative de chaque mot dans une séquence, en comparant les mots entre eux pour comprendre leur relation.Calcul des poids de l’attention :
À chaque étape, le Transformer calcule une probabilité pour chaque mot, ce qui détermine combien chaque mot influencera la sortie suivante.Prédiction de sortie :
À la fin, un softmax est appliqué pour générer des probabilités sur les mots possibles à prédire. Le mot avec la probabilité la plus élevée est choisi.Fonction de perte :
Lors de l’entraînement, la perte d’entropie croisée compare les probabilités du modèle avec la réalité (les étiquettes) pour ajuster le modèle.
Quelle est la part des probabilités ?
Il est difficile de donner un pourcentage exact de la part des probabilités dans le fonctionnement du modèle Transformer, car plusieurs opérations mathématiques interviennent à différentes étapes du processus.
Cependant, on peut dire que les probabilités sont essentielles à certaines parties spécifiques du modèle, notamment dans le mécanisme d’attention et dans la génération des sorties. Voici une estimation approximative :
1. Mécanisme d’attention (30-40%) :
La probabilité joue un rôle majeur dans la manière dont les mots interagissent dans la séquence, via les scores de similarité et la normalisation avec la fonction softmax. C’est une partie centrale du modèle.2. Prédiction des sorties (30-40%) :
À la sortie, les probabilités sont utilisées pour générer les prédictions (par exemple, pour choisir le mot suivant). C’est une autre étape où les probabilités dominent.3. Optimisation et ajustement des poids (20-30%) :
Lors de l’entraînement, les probabilités sont utilisées dans la fonction de perte (entropie croisée) pour ajuster les poids du modèle.En résumé, bien que les probabilités ne soient pas présentes partout dans le modèle, elles sont cruciales pour plusieurs processus clés, donc on pourrait estimer qu’elles représentent environ 60 à 70 % de l’importance du modèle. Cependant, la part exacte peut varier selon l’implémentation et la tâche spécifique.
Et le reste, s’il ne s’agit pas de probabilités ?
Le reste des opérations dans le modèle Transformer repose principalement sur des calculs mathématiques, des opérations linéaires et des statistiques modélisées.
Ces éléments permettent au modèle de traiter et transformer les informations de manière efficace, en plus des probabilités. Voici les principaux aspects :
1. Transformations linéaires et couches de feed-forward (environ 20-30 %) :
Chaque couche du Transformer applique des transformations linéaires (multiplications matricielles) et des fonctions d’activation (comme ReLU ou GELU) pour modéliser des relations complexes entre les données d’entrée.Ces transformations sont essentielles pour permettre au modèle d’apprendre des représentations riches des données, mais elles ne reposent pas directement sur des probabilités.
2. Normalisation et régularisation (environ 10-15 %) :
Des techniques comme la normalisation de couche (Layer Normalization) et les dropouts sont utilisées pour stabiliser l’entraînement et éviter le surapprentissage.Ces opérations sont basées sur des calculs statistiques, comme les moyennes et les variances, mais pas sur des probabilités.
3. Encodage positionnel (environ 5-10 %) :
Puisque le Transformer ne traite pas les séquences de manière ordonnée, des vecteurs de position sont ajoutés aux entrées pour indiquer la position de chaque élément dans la séquence.
C’est un moyen de « modéliser » l’ordre des éléments sans utiliser de probabilité directe.En résumé, tout ce qui concerne les transformations linéaires, la normalisation, les régularisations et l’encodage positionnel repose sur des calculs statistiques ou algorithmiques, ce qui complète les probabilités dans le modèle Transformer.
Les probabilités sont donc utilisées dans les étapes liées à l’attention et à la génération des sorties, tandis que les calculs statistiques modélisent les relations et les transformations au sein des données.
Donc, on peut dire que l’intelligence artificielle du type Transformer, c’est : les statistiques (c’est-à-dire l’accumulation sur internet) + les calculs (c’est-à-dire l’informatique) + les probabilités.
On prend tout ce qui a été dit, et on le redit. On perd les nuances, mais les aspects principaux sont là et facilement accessibles.
Ce n’est pas créatif, mais ce qui a déjà été fait peut être refait et c’est un gain de temps.
Il n’y a par contre pas de négation, pas de contradiction : c’est un système mort, qui porte sur les choses mortes.
-> Retour au dossier sur
L’intelligence artificielle, prolongement de la cybernétique