Interpréter l’impact des grands modèles de langage de l’IA sur la chimie


L’IA est-elle au bord de quelque chose d’énorme ? Cela a été le buzz au cours des derniers mois, grâce à la publication de «grands modèles de langage» (LLM) améliorés tels que GPT-4 d’OpenAI, le successeur de ChatGPT. Développés comme des outils de traitement du langage, ces algorithmes répondent si facilement et naturellement que certains utilisateurs deviennent convaincus qu’ils conversent avec une véritable intelligence. Certains chercheurs ont suggéré que les LLM vont au-delà des méthodes traditionnelles d’IA d’apprentissage en profondeur en affichant des caractéristiques émergentes de l’esprit humain, comme une théorie de l’esprit qui attribue aux autres agents une autonomie et des motivations. D’autres soutiennent que, malgré toutes leurs capacités impressionnantes, les LLM restent des exercices de recherche de corrélations et sont dépourvus non seulement de sensibilité, mais aussi de toute sorte de compréhension sémantique du monde dont ils prétendent parler – comme le révèle, par exemple, la façon dont Les LLM peuvent encore faire des erreurs absurdes ou illogiques ou inventer de faux faits. Les dangers ont été illustrés lorsque le chatbot de recherche de Bing Sydney, qui incorporait ChatGPT, a menacé de tuer un chercheur australien et a tenté de rompre le mariage d’un journaliste basé à New York après avoir professé son amour.

Les experts en intelligence artificielle et en complexité Melanie Mitchell et David Krakauer du Santa Fe Institute, aux États-Unis, suggèrent quant à eux une troisième possibilité : que les LLM possèdent un véritable type de compréhension, mais que nous ne comprenons pas encore nous-mêmes et qui est assez distinct de celle de l’esprit humain.1

Malgré leur nom, les LLM ne sont pas seulement utiles pour la langue. Comme d’autres types de méthodes d’apprentissage en profondeur, telles que celles derrière l’algorithme AlphaFold de structure des protéines de DeepMind, elles exploitent de vastes ensembles de données pour les corrélations entre les variables qui, après une période de formation, leur permettent de fournir des réponses fiables aux nouvelles invites d’entrée. La différence est que les LLM utilisent une architecture de réseau de neurones appelée transformateur, dans laquelle les neurones « s’occupent plus » de certaines de ses connexions que d’autres. Cette fonctionnalité améliore la capacité des LLM à générer du texte naturaliste, mais les rend également potentiellement plus aptes à faire face aux entrées en dehors de l’ensemble de formation – car, selon certains, les algorithmes déduisent certains des principes conceptuels sous-jacents et n’ont donc pas besoin de être ‘dit’ autant dans la formation.

Le fonctionnement interne de ces réseaux est largement opaque

Melanie Mitchell et David Krakauer, Institut Santa Fe

Cela suggère que les LLM pourraient également faire mieux que l’apprentissage en profondeur conventionnel lorsqu’elles sont appliquées à des problèmes scientifiques. C’est l’implication d’un article récent qui a appliqué un LLM au «problème AlphaFold» consistant à déduire la structure des protéines uniquement à partir de la séquence.2 (J’hésite à l’appeler le problème du repliement des protéines, car c’est un peu différent.) Les capacités d’Alphafold ont été louées à juste titre, et il y a même des raisons de penser qu’il peut déduire certaines des caractéristiques du paysage énergétique sous-jacent. Mais Alexander Rives de Meta AI à New York et ses collègues affirment que leur famille de «modèles de langage de protéines transformatrices» appelée collectivement ESM-2, et un modèle appelé ESMFold qui en est dérivé, font encore mieux. Les modèles de langage sont plus rapides jusqu’à deux ordres de grandeur, nécessitent moins de données d’entraînement et ne reposent pas sur des ensembles de soi-disant alignements de séquences multiples : des séquences étroitement liées à la structure cible. Les chercheurs ont exécuté le modèle sur environ 617 millions de séquences de protéines dans la base de données MGnify90 organisée par l’Institut européen de bioinformatique. Plus d’un tiers d’entre eux donnent des prédictions de haute confiance, y compris certaines qui n’ont pas de précédent dans les structures déterminées expérimentalement.

Les auteurs affirment que ces améliorations des performances sont en effet dues au fait que ces LLM ont une meilleure « compréhension » conceptuelle du problème. Comme ils l’ont dit, « le modèle du langage intériorise les schémas évolutifs liés à la structure », ce qui signifie qu’il ouvre potentiellement « une vision approfondie de la diversité naturelle des protéines ». Avec environ 15 milliards de paramètres dans le modèle, il n’est pas encore aisé d’extraire avec certitude quelles sont les représentations internes qui alimentent les gains de performance. Mais une telle affirmation, si elle est bien étayée, rend les LLM beaucoup plus excitants pour faire de la science, car ils pourraient travailler avec ou même aider à révéler les principes physiques sous-jacents impliqués.

Les auteurs affirment que ces améliorations des performances sont en effet dues au fait que ces LLM ont une meilleure « compréhension » conceptuelle du problème. Comme ils l’ont dit, « le modèle du langage intériorise les schémas évolutifs liés à la structure », ce qui signifie qu’il ouvre potentiellement « une vision approfondie de la diversité naturelle des protéines ». Avec environ 15 milliards de paramètres dans le modèle, il n’est pas encore aisé d’extraire avec certitude quelles sont les représentations internes qui alimentent les gains de performance : « Le fonctionnement interne de ces réseaux est largement opaque », précisent Mitchell et Krakauer. Mais une telle affirmation, si elle est bien étayée, rend les LLM beaucoup plus excitants pour faire de la science, car ils pourraient travailler avec ou même aider à révéler les principes physiques sous-jacents impliqués.

Il y a peut-être encore du chemin à faire, cependant. Lorsque les chimistes Cayque Monteiro Castro Nascimento et André Silva Pimentel de la Pontifícia Universidade Católica do Rio de Janeiro au Brésil ont lancé à ChatGPT des défis chimiques de base, tels que la conversion des noms de composés en représentations chimiques Smiles, les résultats ont été mitigés. L’algorithme a correctement identifié les groupes de points de symétrie de six molécules simples sur dix et a réussi à prédire la solubilité dans l’eau de 11 polymères différents. Mais il ne semblait pas connaître la différence entre les alcanes et les alcènes, ou le benzène et le cyclohexène. Comme pour les applications linguistiques, l’obtention de bons résultats ici peut dépendre en partie du fait de poser les bonnes questions : il existe maintenant un domaine émergent de « l’ingénierie rapide » pour y parvenir. Là encore, poser la bonne question est sûrement l’une des tâches les plus importantes pour faire n’importe quel type de science.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*