Les outils d’intelligence artificielle sont prometteurs pour des applications allant des véhicules autonomes à l’interprétation d’images médicales. Cependant, une nouvelle étude révèle que ces outils d’IA sont plus vulnérables qu’on ne le pensait aux attaques ciblées qui forcent effectivement les systèmes d’IA à prendre de mauvaises décisions.
Il s’agit de ce que l’on appelle les « attaques contradictoires », dans lesquelles quelqu’un manipule les données introduites dans un système d’IA afin de les confondre. Par exemple, quelqu’un sait peut-être que le fait de placer un type spécifique d’autocollant à un endroit spécifique d’un panneau d’arrêt pourrait effectivement rendre le panneau d’arrêt invisible pour un système d’IA. Ou encore, un pirate informatique pourrait installer du code sur un appareil à rayons X qui modifierait les données d’image de manière à ce qu’un système d’IA établisse des diagnostics inexacts.
« Pour la plupart, vous pouvez apporter toutes sortes de modifications à un panneau d’arrêt, et une IA qui a été entraînée à identifier les panneaux d’arrêt saura toujours qu’il s’agit d’un panneau d’arrêt », explique Tianfu Wu, co-auteur d’un article sur le sujet. nouveaux travaux et professeur agrégé de génie électrique et informatique à la North Carolina State University. « Cependant, si l’IA présente une vulnérabilité et qu’un attaquant connaît cette vulnérabilité, il pourrait en profiter et provoquer un accident. »
La nouvelle étude de Wu et de ses collaborateurs s’est concentrée sur la détermination de la fréquence de ces types de vulnérabilités adverses dans les réseaux neuronaux profonds de l’IA. Ils ont constaté que les vulnérabilités sont beaucoup plus courantes qu’on ne le pensait auparavant.
« De plus, nous avons constaté que les attaquants peuvent tirer parti de ces vulnérabilités pour forcer l’IA à interpréter les données comme bon leur semble », explique Wu. « En utilisant l’exemple du panneau d’arrêt, vous pouvez faire croire au système d’IA que le panneau d’arrêt est une boîte aux lettres, ou un panneau de limitation de vitesse, ou un feu vert, etc., simplement en utilisant des autocollants légèrement différents – ou quelle que soit la vulnérabilité.
« C’est extrêmement important, car si un système d’IA n’est pas robuste contre ce type d’attaques, vous ne voulez pas le mettre en pratique, en particulier pour des applications qui peuvent affecter des vies humaines. »
Pour tester la vulnérabilité des réseaux de neurones profonds face à ces attaques adverses, les chercheurs ont développé un logiciel appelé QuadAttac.K. Le logiciel peut être utilisé pour tester n’importe quel réseau neuronal profond pour détecter les vulnérabilités adverses.
« Fondamentalement, si vous disposez d’un système d’IA formé et que vous le testez avec des données propres, le système d’IA se comportera comme prévu. QuadAttacK surveille ces opérations et apprend comment l’IA prend des décisions liées aux données. Cela permet à QuadAttacK pour déterminer comment les données pourraient être manipulées pour tromper l’IA. QuadAttacK commence ensuite à envoyer des données manipulées au système d’IA pour voir comment l’IA réagit. Si QuadAttacK a identifié une vulnérabilité qui peut rapidement faire voir à l’IA ce que QuadAttacK veut que ça voie. »
Lors des tests de validation de principe, les chercheurs ont utilisé QuadAttacK pour tester quatre réseaux de neurones profonds : deux réseaux de neurones convolutifs (ResNet-50 et DenseNet-121) et deux transformateurs de vision (ViT-B et DEiT-S). Ces quatre réseaux ont été choisis car ils sont largement utilisés dans les systèmes d’IA du monde entier.
« Nous avons été surpris de constater que ces quatre réseaux étaient très vulnérables aux attaques adverses », explique Wu. « Nous avons été particulièrement surpris de voir à quel point nous pouvions affiner les attaques pour faire voir aux réseaux ce que nous voulions qu’ils voient. »
L’équipe de recherche a créé QuadAttacK accessible au public, afin que la communauté des chercheurs puisse l’utiliser elle-même pour tester les vulnérabilités des réseaux neuronaux. Le programme peut être trouvé ici : https://thomaspaniagua.github.io/quadattack_web/.
« Maintenant que nous pouvons mieux identifier ces vulnérabilités, la prochaine étape consiste à trouver des moyens de les minimiser », explique Wu. « Nous disposons déjà de solutions potentielles, mais les résultats de ce travail sont encore à venir. »
Le journal « QuadAttacK: Une approche de programmation quadratique pour l’apprentissage ordonné par le haut-K Adversarial Attacks », sera présenté le 16 décembre lors de la trente-septième conférence sur les systèmes de traitement de l’information neuronale (NeurIPS 2023), qui se tient à la Nouvelle-Orléans, en Louisiane. Le premier auteur de l’article est Thomas Paniagua, titulaire d’un doctorat. étudiant à NC State. L’article a été co-écrit par Ryan Grainger, doctorant à NC State.
Le travail a été réalisé avec le soutien du Bureau de recherche de l’armée américaine, dans le cadre des subventions W911NF1810295 et W911NF2210010 ; et de la National Science Foundation, dans le cadre des subventions 1909644, 2024688 et 2013451.