Les chercheurs de Google DeepMind ont récemment développé une technique pour améliorer les capacités mathématiques dans les modèles de langage d’IA tels que ChatGPT en utilisant d’autres modèles d’IA pour améliorer les invites, c’est-à-dire les instructions écrites qui indiquent au modèle d’IA quoi faire. Il a été constaté que l’utilisation d’encouragements de type humain améliorait considérablement les compétences en mathématiques, conformément aux résultats antérieurs.
Dans un article intitulé « Large Language Models as Optimizers » répertorié ce mois-ci sur arXiv, les scientifiques de DeepMind ont présenté l’optimisation par PROmpting (OPRO), une méthode pour améliorer les performances des grands modèles de langage (LLM) tels que ChatGPT d’OpenAI et PaLM 2 de Google. La nouvelle approche contourne les limites des optimiseurs mathématiques traditionnels en utilisant le langage naturel pour guider les LLM dans la résolution de problèmes. Le « langage naturel » est une manière sophistiquée de prononcer le langage humain de tous les jours.
« Au lieu de définir formellement le problème d’optimisation et de dériver l’étape de mise à jour avec un solveur programmé », écrivent les chercheurs, « nous décrivons le problème d’optimisation en langage naturel, puis demandons au LLM de générer de manière itérative de nouvelles solutions basées sur la description du problème et les précédentes. trouvé des solutions. »
En règle générale, dans l’apprentissage automatique, les techniques utilisant des algorithmes tels que les optimiseurs basés sur les dérivés servent de guide pour améliorer les performances d’un modèle d’IA. Imaginez les performances d’un modèle sous la forme d’une courbe sur un graphique : le but est de trouver le point le plus bas de cette courbe car c’est là que le modèle fait le moins d’erreurs. En utilisant la pente de la courbe pour effectuer des ajustements, l’optimiseur aide le modèle à se rapprocher de plus en plus de ce point bas idéal, le rendant plus précis et efficace quelle que soit la tâche pour laquelle il est conçu.
Plutôt que de s’appuyer sur des définitions mathématiques formelles pour effectuer cette tâche, OPRO utilise des « méta-invites » décrites en langage naturel pour préparer le terrain pour le processus d’optimisation. Le LLM génère ensuite des solutions candidates basées sur la description du problème et les solutions précédentes, et les teste en attribuant à chacune un score de qualité.
Dans OPRO, deux grands modèles de langage jouent des rôles différents : un LLM marqueur évalue la fonction objective telle que la précision, tandis qu’un LLM optimiseur génère de nouvelles solutions basées sur les résultats passés et une description en langage naturel. Différentes paires de LLM de buteur et d’optimiseur sont évaluées, y compris des modèles tels que les variantes PaLM 2 et GPT. OPRO peut optimiser les invites pour le LLM du marqueur en demandant à l’optimiseur de générer de manière itérative des invites avec des scores plus élevés. Ces scores aident le système à identifier les meilleures solutions, qui sont ensuite réintégrées dans la « méta-invite » pour le prochain cycle d’optimisation.
« Respirez profondément et travaillez étape par étape »
La partie la plus intrigante de l’étude DeepMind est peut-être l’impact de phrases spécifiques sur le résultat. Des expressions telles que « réfléchissons étape par étape » ont incité chaque modèle d’IA à produire des résultats plus précis lorsqu’il est testé par rapport à des ensembles de données de problèmes mathématiques. (Cette technique est devenue largement connue en mai 2022 grâce à un article désormais célèbre intitulé « Les grands modèles de langage sont des raisonneurs zéro-shot ».)
Prenons un problème simple, tel que : « Beth prépare quatre ou deux douzaines de lots de cookies par semaine. Si ces cookies sont partagés à parts égales entre 16 personnes, combien de cookies chaque personne consomme-t-elle ? » L’article de 2022 a découvert qu’au lieu de simplement soumettre à un chatbot un problème de mots comme celui-ci, vous le préfixiez plutôt par « Pensons étape par étape », puis collez le problème. La précision des résultats du modèle d’IA s’améliore presque toujours et cela fonctionne bien avec ChatGPT.
Il est intéressant de noter que dans cette dernière étude, les chercheurs de DeepMind ont découvert que « Respirez profondément et travaillez sur ce problème étape par étape » comme l’invite la plus efficace lorsqu’elle est utilisée avec le modèle de langage PaLM 2 de Google. L’expression a atteint le score de précision le plus élevé de 80,2 pour cent lors des tests contre GSM8K, qui est un ensemble de données de problèmes de mots mathématiques à l’école primaire. En comparaison, PaLM 2, sans aucune invite particulière, n’a obtenu qu’une précision de 34 % sur GSM8K, et l’invite classique « Réfléchissons étape par étape » a obtenu une précision de 71,8 %.
Alors pourquoi ça marche ? De toute évidence, les grands modèles de langage ne peuvent pas respirer profondément car ils n’ont ni poumons ni corps. Ils ne pensent pas et ne raisonnent pas non plus comme les humains. Le « raisonnement » qu’ils font (et le « raisonnement » est un terme controversé parmi certains, bien qu’il soit facilement utilisé comme terme technique en IA) est emprunté à un ensemble massif de données d’expressions linguistiques extraites des livres et du Web. Cela inclut des éléments tels que les forums de questions et réponses, qui incluent de nombreux exemples de « respirons profondément » ou de « réfléchissons étape par étape » avant de montrer des solutions plus soigneusement argumentées. Ces phrases peuvent aider le LLM à exploiter de meilleures réponses ou à produire de meilleurs exemples de raisonnement ou de résolution de problèmes à partir de l’ensemble de données qu’il a absorbé dans les pondérations de son réseau neuronal.
Même si trouver les meilleures façons de donner aux LLM des encouragements de type humain nous semble quelque peu déroutant, ce n’est pas un problème pour OPRO car la technique utilise de grands modèles de langage pour découvrir ces phrases d’incitation plus efficaces. Les chercheurs de DeepMind pensent que le plus grand avantage d’OPRO réside dans sa capacité à passer au crible de nombreuses invites possibles pour trouver celle qui donne les meilleurs résultats pour un problème spécifique. Cela pourrait permettre aux gens de produire à l’avenir des résultats beaucoup plus utiles ou précis à partir des LLM.