Comment comprendre comment l’intelligence artificielle utilisant « Transformer » aborde une phrase ? On va prendre comme exemple « José aime danser la cumbia ».
La cumbia est un genre musical dans un esprit de danse, née en Colombie et ayant irradié toute l’Amérique latine avec de multiples variations, notamment la chicha (ou cumbia tropicale) au Pérou.
La première étape est le découpage de la phrase. Chaque mot devient un jeton pour la machine de calcul, en anglais un token.
On a ici cinq tokens : « José », « aime », « danser », « la », « cumbia ».
L’intelligence artificielle va ici attribuer des vecteurs à chaque mot. Cela donne par exemple [0.1, 0.2, 0.3] ; dans l’exemple donné ici, il y a trois vecteurs, mais en réalité, il y en a des centaines, des milliers.
Chaque vecteur correspond à une dimension : on peut penser à un nom, un verbe d’action, une description d’émotion, etc.
Cependant, il y a une erreur à ne pas commettre. On pourrait penser ici que les dimensions des vecteurs et le rapport entre ces vecteurs a été choisi rationnellement par des êtres humains, suivant différents critères : la grammaire, les familles de mots, les thèmes, les domaines concernés, etc.
Il n’en est rien. L’intelligence artificielle fonctionne ici comme une caisse enregistreuse, sauf qu’au lieu de nombres, on lui donne des phrases. On prend tout internet, on lui fait avaler cela, et l’intelligence artificielle établit les vecteurs propres à chaque mot selon les statistiques.
Dans l’exemple choisi, « aimer » et « danser » sont des verbes, mais le modèle Transformer ne les désigne pas comme tels : les textes qu’il a ingurgités les désignent comme des verbes, donc pour lui ce sont des verbes.
Il s’aperçoit statistiquement que ces verbes se modifient selon certaines situation – en pratique, ils se conjuguent – et il prend cela en compte.
Pour faire la distinction entre « aime » et « danser », le modèle Transformer ne « sait » donc pas qu’il s’agit d’un verbe conjugué et d’un infinitif. Il va rapprocher statistiquement d’autres mots terminant de la même manière, placés au même endroit, utilisés de la même manière, etc.
C’est le premier aspect qu’il faut bien comprendre. L’interprétation d’un texte par l’intelligence artificielle, du type Transformer, se fait sur la base d’autres textes qui ont été au préalable analysés, et seulement ainsi.
Si dans la très grande majorité des cas, l’intelligence artificielle a constaté que le mot marteau est associé au mot clou, alors elle s’attendra à ce que le mot clou apparaisse avec le mot marteau, et elle-même emploiera le mot clou si elle parle d’un marteau.
Cela implique qu’une intelligence artificielle du type Transformer n’est pas en mesure de comprendre ou de répondre en s’alignant sur un mode de pensée qui n’a pas été assimilé par lui de manière au moins assez significative.
Tout ce qui est nouveau, minoritaire, d’avant-garde, en développement inégal… reste incompris par lui. Mais il s’agira de revenir sur cet aspect.
Ce qu’il faut déjà retenir ici, c’est l’association à la fois statique et statistique. Le modèle Transformer va par exemple rapprocher « roi » de « reine », car il voit souvent les deux mots ensemble, et il va effectuer une sorte de grand balayage de tous les mots pour saisir les interconnexions entre eux.
Concrètement, des vecteurs sont attribués aux mots selon les interconnexions constatées dans l’assimilation de textes par l’intelligence artificielle, un processus appelé « embedding ».
Donnons deux exemples pour bien saisir le principe. Les chiffres correspondent à l’évaluation générale des mots dans la grande digestion d’innombrables textes, cela correspond à une sorte de vaste classement, ou plutôt de rangement.
Premier cas : on a « manger » et « dîner », deux mots qui sont liés à l’alimentation.
manger → [0.12, -0.45, 0.89, 0.33, -0.67, 0.22, 0.54, -0.11, 0.77, -0.29]
dîner → [0.10, -0.42, 0.85, 0.30, -0.65, 0.20, 0.50, -0.10, 0.75, -0.27]
Dans ce premier cas, les valeurs sont proches, ce qui signifie que ces mots sont souvent utilisés dans des contextes similaires.
Second cas : on a « manger » et « ordinateur », deux mots utilisés dans des contextes très différents.
manger → [0.12, -0.45, 0.89, 0.33, -0.67, 0.22, 0.54, -0.11, 0.77, -0.29]
ordinateur → [-0.78, 0.32, -0.44, 0.91, 0.15, -0.89, 0.03, 0.77, -0.56, 0.40]
Dans ce second cas, les valeurs sont très différentes, indiquant une forte distance.
En termes mathématiques, le calcul se fait avec le cosinus de l’angle entre les deux vecteurs :
Cos(manger, dîner) ≈ 0.95 (très proche)
Cos(manger, ordinateur) ≈ 0.12 (très éloigné)
C’est ainsi que le modèle Transformer aborde les mots. Mais cet embedding n’est que la première étape.
Cependant, avant de voir la suite, il faut bien comprendre la chose suivante : le texte « José aime danser la cumbia » n’a pas encore été utilisé en tant que tel par l’intelligence artificielle !
Seuls les éléments constitutifs de la phrase ont été pris en compte et retrouvés dans la base de données, pour leur attribuer des valeurs issues de l’assimilation des textes et d’une évaluation statistique.
C’est absolument fondamental.
Tout comme pour les libertariens, la société est simplement un agrégat d’individus et la souveraineté d’un ensemble dépend des individus le composant, pour le modèle Transformer les mots sont des éléments uniques accordant indirectement de la valeur à un ensemble plus grand qui est la phrase.
-> Retour au dossier sur
L’intelligence artificielle, prolongement de la cybernétique