Dépasser les limites de mise à l’échelle de l’informatique analogique


À mesure que les modèles d’apprentissage automatique deviennent plus grands et plus complexes, ils nécessitent un matériel plus rapide et plus économe en énergie pour effectuer des calculs. Les ordinateurs numériques conventionnels ont du mal à suivre.

Un réseau de neurones optiques analogiques pourrait effectuer les mêmes tâches qu’un réseau numérique, telles que la classification d’images ou la reconnaissance vocale, mais comme les calculs sont effectués en utilisant la lumière au lieu de signaux électriques, les réseaux de neurones optiques peuvent fonctionner beaucoup plus rapidement tout en consommant moins d’énergie.

Cependant, ces appareils analogiques sont sujets à des erreurs matérielles qui peuvent rendre les calculs moins précis. Les imperfections microscopiques des composants matériels sont l’une des causes de ces erreurs. Dans un réseau de neurones optiques comportant de nombreux composants connectés, les erreurs peuvent rapidement s’accumuler.

Même avec des techniques de correction d’erreurs, en raison des propriétés fondamentales des dispositifs qui composent un réseau de neurones optiques, une certaine quantité d’erreurs est inévitable. Un réseau suffisamment grand pour être mis en œuvre dans le monde réel serait beaucoup trop imprécis pour être efficace.

Les chercheurs du MIT ont surmonté cet obstacle et trouvé un moyen de mettre à l’échelle efficacement un réseau de neurones optiques. En ajoutant un minuscule composant matériel aux commutateurs optiques qui forment l’architecture du réseau, ils peuvent même réduire les erreurs non corrigibles qui s’accumuleraient autrement dans l’appareil.

Leur travail pourrait permettre un réseau de neurones analogiques ultra-rapide et économe en énergie qui peut fonctionner avec la même précision qu’un réseau numérique. Avec cette technique, à mesure qu’un circuit optique devient plus grand, la quantité d’erreur dans ses calculs diminue en fait.

« Ceci est remarquable, car cela va à l’encontre de l’intuition des systèmes analogiques, où les circuits plus grands sont censés avoir des erreurs plus élevées, de sorte que les erreurs limitent l’évolutivité. Ce présent article nous permet d’aborder la question de l’évolutivité de ces systèmes avec un « oui » sans ambiguïté « , déclare l’auteur principal Ryan Hamerly, chercheur invité au Laboratoire de recherche en électronique (RLE) du MIT et au Laboratoire de photonique quantique et chercheur principal à NTT Research.

Les co-auteurs de Hamerly sont l’étudiant diplômé Saumil Bandyopadhyay et l’auteur principal Dirk Englund, professeur agrégé au département de génie électrique et informatique (EECS) du MIT, responsable du laboratoire de photonique quantique et membre du RLE. La recherche est publiée dans Communication Nature.

Se multiplier avec la lumière

Un réseau de neurones optiques est composé de nombreux composants connectés qui fonctionnent comme des miroirs reprogrammables et accordables. Ces miroirs accordables sont appelés inféromètres de Mach-Zehnder (MZI). Les données du réseau neuronal sont codées en lumière, qui est envoyée dans le réseau neuronal optique à partir d’un laser.

Un MZI typique contient deux miroirs et deux séparateurs de faisceau. La lumière pénètre par le haut d’un MZI, où elle est divisée en deux parties qui interfèrent l’une avec l’autre avant d’être recombinée par le deuxième séparateur de faisceau, puis réfléchie par le bas vers le MZI suivant dans le réseau. Les chercheurs peuvent tirer parti de l’interférence de ces signaux optiques pour effectuer des opérations d’algèbre linéaire complexes, appelées multiplication matricielle, c’est ainsi que les réseaux de neurones traitent les données.

Mais les erreurs qui peuvent se produire dans chaque MZI s’accumulent rapidement lorsque la lumière se déplace d’un appareil à l’autre. On peut éviter certaines erreurs en les identifiant à l’avance et en réglant les MZI de sorte que les erreurs antérieures soient annulées par les périphériques ultérieurs de la matrice.

« C’est un algorithme très simple si vous savez quelles sont les erreurs. Mais ces erreurs sont notoirement difficiles à déterminer car vous n’avez accès qu’aux entrées et sorties de votre puce », explique Hamerly. « Cela nous a motivés à examiner s’il était possible de créer une correction d’erreur sans étalonnage. »

Hamerly et ses collaborateurs ont précédemment démontré une technique mathématique qui est allée plus loin. Ils ont pu déduire avec succès les erreurs et régler correctement les MZI en conséquence, mais même cela n’a pas supprimé toutes les erreurs.

En raison de la nature fondamentale d’un MZI, il existe des cas où il est impossible de régler un appareil afin que toute la lumière s’écoule du port inférieur vers le MZI suivant. Si l’appareil perd une fraction de lumière à chaque étape et que le réseau est très grand, à la fin, il ne restera qu’un tout petit peu de puissance.

« Même avec la correction d’erreurs, il existe une limite fondamentale à la qualité d’une puce. Les MZI sont physiquement incapables de réaliser certains paramètres pour lesquels ils doivent être configurés », dit-il.

Ainsi, l’équipe a développé un nouveau type de MZI. Les chercheurs ont ajouté un séparateur de faisceau supplémentaire à l’extrémité de l’appareil, l’appelant un 3-MZI car il dispose de trois séparateurs de faisceau au lieu de deux. En raison de la façon dont ce séparateur de faisceau supplémentaire mélange la lumière, il devient beaucoup plus facile pour un MZI d’atteindre le réglage dont il a besoin pour envoyer toute la lumière à travers son port inférieur.

Il est important de noter que le séparateur de faisceau supplémentaire ne mesure que quelques micromètres et est un composant passif, il ne nécessite donc aucun câblage supplémentaire. L’ajout de séparateurs de faisceau supplémentaires ne modifie pas de manière significative la taille de la puce.

Puce plus grosse, moins d’erreurs

Lorsque les chercheurs ont effectué des simulations pour tester leur architecture, ils ont constaté qu’elle pouvait éliminer une grande partie de l’erreur non corrigible qui entrave la précision. Et à mesure que le réseau de neurones optiques s’agrandit, la quantité d’erreurs dans l’appareil diminue en fait, à l’opposé de ce qui se passe dans un appareil avec des MZI standard.

En utilisant des 3-MZI, ils pourraient potentiellement créer un appareil suffisamment grand pour des utilisations commerciales avec une erreur réduite d’un facteur 20, explique Hamerly.

Les chercheurs ont également développé une variante de la conception MZI spécifiquement pour les erreurs corrélées. Celles-ci se produisent en raison d’imperfections de fabrication – si l’épaisseur d’une puce est légèrement erronée, les MZI peuvent tous être décalés d’environ la même quantité, de sorte que les erreurs sont à peu près les mêmes. Ils ont trouvé un moyen de modifier la configuration d’un MZI pour le rendre robuste à ces types d’erreurs. Cette technique a également augmenté la bande passante du réseau de neurones optiques afin qu’il puisse fonctionner trois fois plus vite.

Maintenant qu’ils ont présenté ces techniques à l’aide de simulations, Hamerly et ses collaborateurs prévoient de tester ces approches sur du matériel physique et de continuer à se diriger vers un réseau de neurones optiques qu’ils peuvent déployer efficacement dans le monde réel.

Cette recherche est financée, en partie, par une bourse de recherche d’études supérieures de la National Science Foundation et le Bureau de la recherche scientifique de l’US Air Force.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*