La question des probabilités dans l’IA de type Transformer

Il faut en fait maintenant aborder la question de la logique probabiliste de l’intelligence artificielle suivant le modèle Transformer.

Puisque, on l’a compris, les choses ne sont pas définies par leur qualité, à travers la négation, il faut comprendre comment elles sont accumulées quantitativement, à travers les inter-relations conçus comme le facteur positif et le seul à conserver.

La logique à l’œuvre est la même que celle des réseaux sociaux et elle est en ce sens facile à comprendre.

Il y a deux aspects : d’une part, une personne va avoir des choix à sa disposition et il y a l’idée de calculer la probabilité que ce soit tel ou tel choix qui va être effectué.

De l’autre, des choix ont déjà été effectués et leur enregistrement permet de mettre des « poids » sur tel ou tel aspect pour « deviner » les choix probablement à venir.

Pour faire simple, si une masse très importante de gens regardent 17 vidéos de lutte gréco-romaine, puis ensuite une vidéo d’escrime, alors il va être considéré que si une personne a regardé 17 vidéos de lutte gréco-romaine, il y a de très grandes chances qu’elle aille regarder une vidéo d’escrime.

Plus on peut ici affiner les choses – quelles vidéos, combien de temps, etc.- plus on peut prévoir les choix des utilisateurs.

Et plus les utilisateurs font des choix, plus ils renforcent la capacité à prévoir leurs choix.

C’est la raison pour laquelle il fallait avoir énormément de données avant d’avoir des choses aussi fonctionnelles que Facebook, TikTok, Google ou l’intelligence artificielle utilisant Transformer.

Mais on tombe ici sur une puissante contradiction.

D’un côté, le consommateur a effectué des choix, qu’on peut enregistrer et dont on peut s’imaginer qu’ils vont être reproduit.

De l’autre, le consommateur est dans une action nouvelle et unique à chaque fois.

Prenons comme exemple quelqu’un qui utilise l’application TikTok. Imaginons qu’il y ait trois types de vidéos que cette personne regarde. On va les considérer comme des « état » : la personne regarde tel type de vidéo, ou bien elle regarde tel type de vidéo.

État 1 (Vidéos de danse) / État 2 (Vidéos humoristiques) / État 3 (Vidéos de cuisine)

Le consommateur commence en regardant une vidéo de danse, puis il passe à d’autres vidéos en fonction de ses intérêts, de ses habitudes passées et des suggestions de l’algorithme TikTok.

On peut utiliser les mathématiques pour modéliser cela, notamment avec la chaîne de Markov (du mathématicien russe Andreï Markov, 1856-1922).

Voilà de manière simplifiée à quoi pourrait ressembler une « matrice de transition ».

danse
(état 1)
humour
(état 2)
cuisine
(état 3)
danse (état 1)0.40.40.2
humour (état 2)0.30.50.2
cuisine (état 3)0.20.30.5

Les probabilités de transition indiquées dans le tableau sont les suivantes.

Si l’utilisateur est actuellement en train de regarder une vidéo de danse (état 1) :

  • il y a 40% de chances qu’il regarde une autre vidéo de danse.
  • il y a 40% de chances qu’il passe à une vidéo humoristique.
  • il y a 20% de chances qu’il passe à une vidéo de cuisine.

Si l’utilisateur est actuellement en train de regarder une vidéo humoristique (état 2) :

  • il y a 30% de chances qu’il retourne à une vidéo de danse.
  • il y a 50% de chances qu’il regarde une autre vidéo humoristique.
  • il y a 20% de chances qu’il passe à une vidéo de cuisine.

Si l’utilisateur est actuellement sur une vidéo de cuisine (état 3) :

  • il y a 20% de chances qu’il passe à une vidéo de danse.
  • il y a 30% de chances qu’il passe à une vidéo humoristique.
  • il y a 50% de chances qu’il reste sur une vidéo de cuisine.

On remarquera ici une chose extrêmement importante. Le principe de la chaîne de Markov est qu’il ne faut pas se fonder sur ce qui a eu lieu auparavant.

On est dans la consommation immédiate et « pure ». Les états précédents ne sont pas pris en compte.

Evidemment, on pense tout de suite au modèle Transformer qui prend pareillement les mots de manière « pure », sans en rien considérer les phrases d’avant, se contentant d’ajuster en fonction des phrases d’avant, sans chercher à comprendre abstraitement, sans conceptualiser, sans catégoriser.

Il y a ici un puissant paradoxe.

On regarde le comportement d’un consommateur tout au long de sa consommation de vidéos – mais on considère qu’à chaque fois, l’état nouveau dans lequel il se trouve ne dépend pas des états passés.

C’est comme s’il y avait un redémarrage à chaque fois nouveau de la consommation.

C’est un sentiment d’ailleurs bien connu de quelqu’un en état d’addiction par rapport à la consommation.

Mais en même temps, il y a de puissants calculs justement pour savoir ce qui a été fait auparavant, pas forcément de manière très précise pour chaque utilisateur, mais en tout cas pour former de gros blocs comportementaux.

On sait bien ce qui est pris en compte : les clics, les vues, les likes, les partages, les mises en favoris, les comptes suivis, les commentaires effectués, les vidéos vues en entiers (surtout les plus longues), les publicités où il y a eu une réaction, le contenu éventuellement produit, etc.

Tout cela est, finalement, bien connu. Or, ce qu’il s’agit de bien voir, c’est que l’intelligence artificielle utilisant le modèle Transformer n’agit pas différemment.

Au lieu de clics, de vues, de likes, d’utilisateurs, de vidéos… on a des mots. Le mot est considéré comme consommateur pur devant faire un choix sans avoir rien fait auparavant… et en même temps, ce qu’il a fait est pris en compte, de la même manière que l’ensemble d’un texte va être pris en compte par Transformer pour comprendre le sens d’un mot en particulier dans son rapport aux autres.

L’intelligence artificielle du type Transformer pose le problème à l’envers : elle fétichise le mot, qu’elle pourrait d’ailleurs remplacer par des nombres, des données, absolument n’importe quoi. C’est une simple logique comptable.

-> Retour au dossier sur
L’intelligence artificielle, prolongement de la cybernétique