Un nouvel outil d’intelligence artificielle (IA) peut classer les mécanismes de réaction chimique à l’aide de données de concentration pour faire des prédictions précises à 99,6 % avec des données bruitées de manière réaliste. Igor Larrosa et Jordi Bures de l’Université de Manchester ont rendu le modèle disponible gratuitement pour aider à faire progresser « la découverte et le développement de réactions organiques entièrement automatisées ».
«Il y a beaucoup plus d’informations dans les données cinétiques que les chimistes n’ont pu en extraire traditionnellement», commente Larrosa. Le modèle d’apprentissage en profondeur « ne se contente pas d’égaler mais dépasse ce que les experts chimistes en cinétique seraient capables de faire avec les outils précédents », affirme-t-il.
Larrosa ajoute que la chimie est à un tournant unique pour les outils d’IA. En tant que tel, les chimistes de Manchester ont cherché à concevoir un modèle avec les capacités idéales pour la classification des réactions. Bures et Larrosa ont combiné deux réseaux de neurones différents. Tout d’abord, un réseau neuronal de mémoire à court terme suit les changements de concentration au fil du temps. Deuxièmement, un réseau de neurones entièrement connecté traite ce qui sort de ce premier réseau.
Le modèle final contient 576 000 paramètres entraînables. Les paramètres décrivent « les opérations mathématiques qui sont effectuées sur les données du profil cinétique », explique Larrosa. Ces opérations produisent alors des probabilités pour lesquelles le mécanisme provient des données. « A titre de comparaison, AlphaFold utilise 21 millions de paramètres et GPT3 utilise 175 milliards de paramètres », ajoute-t-il.
Informations sur les catalyseurs
Bures et Larrosa ont formé le modèle avec 5 millions d’échantillons cinétiques simulés, étiquetés avec l’un des 20 mécanismes de réaction catalytique courants auxquels l’échantillon se rapporte. Une fois que le modèle a appris à reconnaître les caractéristiques des données cinétiques associées à chaque mécanisme de réaction, il « applique ces règles aux nouvelles données cinétiques d’entrée pour les classer », explique Bures. Le premier des 20 est le mécanisme catalytique le plus simple, décrit par le modèle de Michaelis-Menten. Bures et Larrosa regroupent le reste en mécanismes impliquant des étapes bicatalytiques, ceux avec des étapes d’activation du catalyseur et ceux avec des étapes de désactivation du catalyseur, ce dernier étant le groupe le plus important.
Des données simulées sont nécessaires pour des performances de classification élevées, ajoute Bures, car les données expérimentales sont inévitablement bruyantes et difficiles à interpréter. «Les données expérimentales et les conclusions correspondantes du chimiste ne doivent pas être utilisées pour la formation, car le modèle résultant serait, au mieux, aussi précis qu’un chimiste moyen, et plus probablement moins précis», déclare-t-il.
Pour tester le modèle formé, Bures et Larrosa ont utilisé davantage de données simulées, ce qui n’a causé que 38 erreurs de classification dans 100 000 échantillons. Pour simuler plus fidèlement des expériences réelles, les chimistes ont ajouté du bruit aux données. Cela a réduit la précision à 99,6 % avec des niveaux de bruit réalistes et à 83 % avec ce que Larrosa appelle « l’extrême absurde des données bruyantes ».
Les chimistes ont également appliqué le modèle aux données d’expériences précédemment publiées. «Bien que la réponse correcte à ces questions ne puisse être connue, le modèle a proposé des mécanismes chimiquement sains», déclare Larrosa. Les résultats ont également fourni de nouvelles informations sur la façon dont les catalyseurs pour les réactions, y compris la métathèse de fermeture de cycle et les cycloadditions, se décomposent. «Comprendre les voies de décomposition du catalyseur est extrêmement important pour pouvoir créer des processus reproductibles», souligne Larrosa.
Marwin Segler de Microsoft Research AI4Science qualifie ce travail de « démonstration fantastique de la façon dont l’apprentissage automatique peut aider les scientifiques créatifs à démêler la nature et à résoudre des problèmes chimiques difficiles ». «Nous avons besoin de meilleurs outils comme celui-ci pour découvrir de nouvelles réactions afin de fabriquer de nouveaux médicaments et matériaux et de rendre la chimie plus verte», déclare-t-il. « Cela souligne également à quel point les simulations peuvent être puissantes pour former des algorithmes d’IA, et nous pouvons nous attendre à en voir plus. »