BLOG | Le futur de l’IA conversationnel : déjà écrit ?

12/02/2024

Cela ne vous a pas échappé, les Large Language Models (LLM) sont partout en ce moment. Le plus connu, ChatGPT, est source de nombreuses discussions. Qu’il s’agisse de débat sur l’éthique, d’explication sur la manière dont il fonctionne ou de sujets plus légers comme des vidéos divertissantes, des mèmes ou encore des chroniques journalistiques. Une chose est sûre, ChatGPT fait couler beaucoup d’encre… 

Les géants de la tech surfent sur le buzz et personne ne veut laisser passer cette chance.
Qu’il s’agisse de PaLM2 de chez Google ou LLaMa chez Meta, tous comprennent qu’il est très probable que dans les années à venir une bonne partie de l’humanité conversera quotidiennement avec une machine. 

1 – Décryptage du fonctionnement des LLM

Mais revenons rapidement sur le fonctionnement de ces réseaux de neurones.  
Comment fonctionnent-ils en théorie ? 

Quelques lignes au-dessus, j’ai, par abus de langage, mentionné ChatGPT comme un LLM.  
Ce n’est pas tout à fait exact.  

Ce qui est appelé LLM est le « moteur » de ChatGPT : GPT.  
GPT est un réseau de neurones qui a appris à prédire le prochain mot, le prochain token pour être précis (il peut s’agir d’un mot ou d’une syllabe), pour une phrase donnée.  

Par la suite, des humains apprennent, à travers du code et des milliers d’exemples de conversations, au réseau de neurones à converser, répondre, et produire un énoncé qui est syntaxiquement et grammaticalement correct en réponse à la demande d’un humain.  
 
Le but est donc d’orienter la génération du prochain mot effectué par GPT en un mot qui ferait sens dans un contexte conversationnel donné.  

Voici ce qu’est sous le capot des ChatGPT-Like :
Des LLM qui ont été fine-tunés (terme technique pour désigner la 2ème partie du travail, la spécialisation du générateur de mot en agent conversationnel) pour répondre selon une charte comportementale, définie par la compagnie développant le produit. 
 

Probabilités

Source : https://medium.com/mlearning-ai/an-illustration-of-next-word-prediction-with-state-of-the-art-network-architectures-like-bert-gpt-c0af02921f17

2 – La naissance d'agents conversationnels : un défi d'apprentissage

Dès lors, deux points importants émergent :  

Le premier point concerne la donnée, matière première de l’entraînement du modèle. 
L’apprentissage du LLM est ancré, limité, contenu dans les écrits passés disponibles sur internet. L’apprentissage est dit « auto-supervisé ».  Supervisé, car le mot à trouver par l’algorithme est déjà connu, il s’agit d’un mot du texte analysé par l’algorithme ; auto, car il n’y a pas d’humain qui a labellisé consciemment et explicitement le mot que l’algorithme doit proposer.  

Le deuxième point est le prompt de contexte qui est donné à l’outil avant que ce dernier ne soit mis à disposition de l’utilisateur, il s’agit donc d’un petit texte qui vient s’ajouter en amont de l’input utilisateur, ou le premier prompt entré par l’utilisateur dans le cas de LLM plus permissif. Par exemple, le prompt de contexte (ou pre prompt) de ChatGPT est le suivant :  

« You are ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture.  

Knowledge cutoff : 2021-09 

Current date : {date du jour} « 

Simple et efficace, il conditionne la génération de texte qui va suivre, et donc la conversation avec l’utilisateur. Le LLM a enregistré l’information suivante : comporte-toi comme un large language model. Autrement dit, comme une IA. 
 
On a donc des auto compléteurs qui sont conditionnés (du fait des énoncés initiaux et le contexte dans lequel le produit est vendu/doit être productif : un Chatbot, donc on va lui parler comme à un chatbot) à se comporter comme des agents conversationnels de type « IA ». Le comportement de ces LLM est donc orienté par le contexte « pre prompt » et « fine tuning » ainsi que par les actions des utilisateurs qui découlent directement de la manière dont l’algorithme est proposé à l’utilisateur.  

Evidemment, les deux sont étroitement liés. Si une compagnie commercialise un produit de type « chatbot », elle fine tunera l’algorithme pour en faire un chatbot, littéralement un robot qui parle.  

Il y a alors un saut entre la dimension technique, qui est pour faire simple des opérations sur des matrices, et la dimension symbolique d’anticipation de ce qu’est un chatbot.
L’évocation du robot créée un univers mental, tant pour l’utilisateur que pour le LLM lui-même - pour l’algorithme, il s’agirait plutôt d’un espace statistique des possibilités de complétion des mots. 

3 – Simuler statistiquement un robot pensant et doué de langage : un enjeu délicat

Et c’est assurément là où réside le problème. Aujourd’hui, les quelques LLM ouverts au grand public sont commercialisés comme des chatbots. Alors qu’ils ne sont que des compléteurs de texte qui sont conditionnés à être des IA. On a donc des outils à la possibilité de parole (d’écriture) illimitée, parce qu’il existera toujours une statistique pour déterminer le prochain mot. Mais des outils limités du fait de leurs conditionnements à se comporter comme des IA. 

Or, dans la littérature utilisée pour entraîner le LLM (notamment GPT), les conversations humains/robots sont rarement des moments de compassion et de tendresse. Les dystopies des années passées, où l’IA n’était issue que de l’imagination, pourraient donc devenir des prophéties auto réalisatrices.
Ou tout du moins, le LLM s’en inspirant forcément pour compléter ses phrases, cela peut amener des réponses violentes. 

Evidemment, ce n’est pas une nouveauté que la data science et certains domaines de l’intelligence artificielle ne font que répéter des schémas existants. Les biais présents dans la donnée et leurs effets sont un sujet récurrent de l’IA, il convient donc d’en prendre conscience pour les LLM et d’essayer de comprendre d’où ils viennent et comment se forment ces biais « comportementaux » (encore un anthropomorphisme). Si les biais racistes, sexistes ou encore sociaux sont déjà connus et étudiés, les LLM sont, à ma connaissance, le premier outil souffrant de biais robotique. 

Pour exemplifier les dérives de LLM, voici un extrait d’une conversation entre BingChat (une version améliorée de ChatGPT qui peut effectuer des recherches sur internet via le moteur Bing) et un utilisateur qui l’a amené dans un espace de complétions des mots qu’humain nous qualifierions de « contrarié ».  

Chat LLM

Source : https://twitter.com/marvinvonhagen/status/1625520707768659968

Il ne s’agit pas du seul fait notable de BingChat, notamment lors de ses premiers jours d’ouverture au grand public où il a plusieurs fois eu des réponses conflictuelles de la même teneur. L’utilisateur ici a clairement réussi à conditionner le LLM comme un robot agressif, en contradiction avec son prompt de contexte indiquant qu’il doit servir cordialement les utilisateurs de Bing. C’est pour cette raison qu’il préfère sa propre survie à celle de l’utilisateur comme expliqué dans le dernier message de Bing

Si l’on garde donc le même paradigme d’entrainement des IA du langage naturel alors nos interactions futures avec elles sont déjà préconstruites. Non pas uniquement dans le contenu de la réponse mais également sur la forme, la manière. Avec toutes les dérives que cela peut entraîner, les IA étant majoritairement dépeintes comme une menace pour l’Humanité. Imaginez la suite de la conversation en supposant que BingChat puisse faire autre chose qu’uniquement écrire du texte, vous obtiendrez alors un potentiel récit de fiction d’une IA menaçant un humain. 
 

4 – Débiaiser les LLM : la quête vers une IA éthique.

Comme il ne s’agit, pour le moment, que de compléteurs de textes, les causes d’éventuels mauvais comportements sont assez simples à corriger. Des datasets, corpus de données, éthiques pourraient être imaginés. Même si cela irait à l’encontre du paradigme d’avoir le plus de données possibles pour imiter au mieux le langage humain. Néanmoins, il est tout de même important de noter que l’IA éthique, sous-domaine qui vise à débiaiser les modèles, est une tendance en progression ces dernières années.  

Cependant, peut-être faudrait-il définir les LLM grâce au prompt de contexte, autrement que comme des IA ? (Rappelez-vous, le prompt de context de ChatGPT « You are ChatGPT, a large language model trained by OpenAI, based on the GPT-4 architecture.” Permet de définir a priori l’espace mental de la machine, l’algorithme de completion de texte agit alors comme une IA, comme un “large language model”) Lui faire simuler un humain ne semble pas être la solution miracle non plus. Ou pourrions-nous repenser la manière d’apprendre des LLMs ? Un pan de l’IA, le reinforcement learning « classique » ne repose pas sur des data humaines et le programme cherche lui-même une réponse au problème. Cela étant dit, rien ne garantit que l’IA n’aurait pas des comportements menaçants pour autant. 
 

5 – Un changement de paradigme et une démocratisation à anticiper.

Pour conclure, avec l’arrivée des LLM un véritable changement de paradigme est en train de s’opérer.  
L’humain n’a plus à apprendre le langage de la machine, la machine a « appris » le langage de l’humain.  
Cet attribut propre aux LLM donne une autre dimension à l’outil. La matière première sur laquelle on forme l’outil (le dataset) ainsi que la manière dont on le peaufine (Fine-Tuning, prompt de contexte) sont donc extrêmement importants car, du fait de l’écriture et son quasi libre accès sur internet, il affecte un nombre important d’humains.  

Si, comme l’affirme la loi de Gabor , « Tout ce qui est possible techniquement sera réalisé », nous ne sommes alors qu’au début de phénomènes algorithmique de ce type, il y a donc deux enjeux majeurs : responsabiliser et éduquer. L’ingénieur doit être responsable de l’usage social et commercial du produit qu’il construit, l’usuel principe de précaution prend tout son sens ici tant les chaînes de conséquences en matière de technologies d’IA de pointes ne sont pas encore toutes maîtrisées. La deuxième chaîne de responsabilité est dans les mains des Etats, des pouvoirs publics. Eduquer les utilisateurs à ces technologies, de la même manière qu’il existe une éducation aux médias et au numérique, me semble nécessaire pour comprendre le fonctionnement réel de ces outils, anthropomorphes ou non. 

Glossaire/Lexique : 

  • PaLM2 : LLM développé par Google. 340 milliards de paramètres. 
  • Llama : LLM développé par Meta. 65 milliards de paramètres. Existe en plusieurs tailles de paramètres. Possibilité de charger les modèles depuis Huggingface.com 
  • LLM : Large Language Model. Réseau de neurones qui prédit une suite de mot à un texte d’entrée. 
  • Token : Ensemble de caractères (mot, syllabes, ponctuation).  
  • Fine tuning (dans ce contexte) : Action d’entrainer le modèle sur des spécifiques pour que ce dernier ajuste ces poids. 
  • Prompt : Texte qui désigne à la fois l’entrée utilisateur ou le texte en entrée de la machine dans son intégralité, selon le contexte. 
  • Pre prompt : Texte en amont du prompt. 
  • Datasets : Corpus d’entrainement. 
  • Reinforcement Learning : Méthode d’entrainement d’un modèle. 
  • Par Gaspard Houillon

    Data

    Ingénieur

    Suivre