Dans sa présentation, le document Attention is all you need explique qu’il propose de mettre en place un processus d’intelligence artificielle nouveau, et ce au moyen des « mécanismes d’attention, se passant totalement de récurrence et de convolutions ».
Ces mots semblent en tant que tel incompréhensibles. Voici comment il faut les comprendre.
Il existe trois types d’intelligence artificielle :
– celle relevant de réseaux dits récurrents (RNNs), fondés sur la récurrence ;
– celle relevant de réseaux dits convolutifs (CNNs), fondés sur la convolution ;
– celle relevant du modèle dit « Transformer » proposé par Attention is all you need qui dit qu’on peut se passer « totalement de récurrence et de convolutions ».
La révolution technologique de 2017 produite par Attention is all you need a fait que parler d’intelligence artificielle, c’est parler du modèle Transformer.
Présentons déjà les deux anciens types d’intelligence artificielle.
Les réseaux dits récurrents (RNNs) les plus connus sont :
– DeepSpeech qui fait de la reconnaissance vocale et est développé par Mozilla ;
– WaveNet qui fait de la génération vocale et est développé par DeepMind ;
– l’ancienne version de Google Translate ;
– OpenAI GPT-1.
On ne les utilise plus désormais que pour des systèmes embarqués où la puissance de calcul est limitée, pour la modélisation de séries temporelles (prévisions financières, météorologiques…), la génération de musique.
La reconnaissance vocale de Siri et d’Alexa utilise une telle intelligence artificielle ; c’est un très bon exemple, car lorsqu’on donne un ordre à Siri ou Alexa, les phrases sont courtes.
Ce type d’intelligence artificielle fonctionne en effet bien pour des phrases courtes, ou bien pour ce qui marche par séquence (d’où l’application capitaliste dans la musique, la bourse, la météo).
Le mode de fonctionnement, pour faire simple, est le suivant : on prend un mot, on l’analyse, on prend le second mot, on l’interprète et on le rapproche du premier mot, puis on fait pareil avec le troisième mot, et ainsi de suite.
On avance mot par mot, ce qui est long et implique d’avoir une « mémoire » prononcée afin de maintenir en contact les analyses effectuées – les connexions entre ces analyses sont dites récurrentes, elles se maintiennent à travers toute la boucle où on avance mot par mot.
Et le souci, c’est que plus la séquence est longue, plus les liaisons entre les mots commencent à être ingérables, l’intelligence artificielle perdant le fil ou bien s’accrochant à une liaison surinterprétée.
C’est d’autant plus un problème qu’il faut entraîner cette intelligence artificielle littéralement en la bourrant de phrases avec leur traduction, afin qu’elle se « souvienne » de quel mot va avec quel mot.
Ici, on est encore dans la démarche robotique : s’il se passe ça, alors il doit y avoir ça, et ainsi de suite pour toute une chaîne d’éléments. Plus la chaîne est longue, plus il faut une puissance de calcul toujours plus grande et une mémoire à la fois massive et réactive.
Les réseaux dits convolutifs (CNNs) étaient minoritaires avant 2017, mais ils sont encore relativement présents, car spécialisés sur la reconnaissance faciale et l’analyse d’image. Ils sont utiles également dans le domaine du son.
Le principe est ici d’utiliser un filtre pour réaliser une cartographie d’une image ou d’un son, afin d’en souligner les caractéristiques. On appelle convolution l’évaluation faite pour chaque zone de l’image.
On procède ensuite à la classification de l’image : il y tant de chances que l’animal sur l’image soit un chien, tant de chances qu’en fait ce soit un loup, etc.
Il s’agit également de détecter des objets spécifiques, par exemple dans le cadre d’une voiture autonome qui doit éviter des piétons.
C’est ce type d’intelligence artificielle qu’on entraîne lorsqu’on doit répondre à un (insupportable) « captcha » où il faut cliquer sur un objet spécifique telle une voiture, des cyclistes, un pont, des feux de signalisation, un escalier, etc.
Les intelligences artificielles du type CNNs les plus connues sont :
– LeNet-5 mis en place en 1998 et utilisé pour la reconnaissance de chiffres manuscrits ;
– AlexNet développé en 2012 avec un accent sur le « deep learning » ;
– VGGNet datant de 2014 et très performant ;
– EfficientNet développé en 2019 par Google ;
– ConvNeXt développé en 2022 par Facebook AI.
Transformer a une approche fondamentalement différente.
-> Retour au dossier sur
L’intelligence artificielle, prolongement de la cybernétique