Visages parlants réalistes créés à partir uniquement d’un clip audio et de la photo d’une personne


Une équipe de chercheurs de l’Université technologique de Nanyang à Singapour (NTU Singapour) a développé un programme informatique qui crée des vidéos réalistes qui reflètent les expressions faciales et les mouvements de la tête de la personne qui parle, ne nécessitant qu’un clip audio et une photo du visage.

Les animations faciales diversifiées mais réalistes, ou DIRFA, sont un programme basé sur l’intelligence artificielle qui prend de l’audio et une photo et produit une vidéo 3D montrant la personne démontrant des animations faciales réalistes et cohérentes synchronisées avec l’audio parlé (voir vidéos).

Le programme développé par NTU améliore les approches existantes, qui luttent contre les variations de pose et le contrôle émotionnel.

Pour ce faire, l’équipe a formé DIRFA sur plus d’un million de clips audiovisuels provenant de plus de 6 000 personnes, issus d’une base de données open source appelée The VoxCeleb2 Dataset, pour prédire les signaux de la parole et les associer aux expressions faciales et aux mouvements de la tête.

Les chercheurs ont déclaré que le DIRFA pourrait conduire à de nouvelles applications dans divers secteurs et domaines, y compris les soins de santé, car il pourrait permettre des assistants virtuels et des chatbots plus sophistiqués et plus réalistes, améliorant ainsi l’expérience des utilisateurs. Il pourrait également constituer un outil puissant pour les personnes souffrant de troubles de la parole ou du visage, en les aidant à transmettre leurs pensées et leurs émotions à travers des avatars expressifs ou des représentations numériques, améliorant ainsi leur capacité à communiquer.

L’auteur correspondant, professeur agrégé Lu Shijian, de l’École d’informatique et d’ingénierie (SCSE) de NTU Singapour, qui a dirigé l’étude, a déclaré : « L’impact de notre étude pourrait être profond et de grande envergure, car elle révolutionne le domaine du multimédia. communication en permettant la création de vidéos très réalistes d’individus parlant, combinant des techniques telles que l’IA et l’apprentissage automatique. Notre programme s’appuie également sur des études antérieures et représente une avancée technologique, car les vidéos créées avec notre programme sont complétées par des mouvements de lèvres précis, des expressions faciales vives et des poses de tête naturelles, en utilisant uniquement leurs enregistrements audio et leurs images statiques.

Le premier auteur, le Dr Wu Rongliang, titulaire d’un doctorat du SCSE de NTU, a déclaré : « La parole présente une multitude de variations. Les individus prononcent les mêmes mots différemment dans divers contextes, englobant des variations de durée, d’amplitude, de ton, etc. contenu, la parole transmet des informations riches sur l’état émotionnel de l’orateur et les facteurs d’identité tels que le sexe, l’âge, l’origine ethnique et même les traits de personnalité. Notre approche représente un effort pionnier dans l’amélioration des performances du point de vue de l’apprentissage de la représentation audio dans l’IA et l’apprentissage automatique. Le Dr Wu est chercheur scientifique à l’Institute for Infocomm Research, Agency for Science, Technology and Research (A*STAR), Singapour.

Les résultats ont été publiés dans la revue scientifique La reconnaissance de formes en août.

Des volumes parlants : transformer l’audio en action avec une précision animée

Les chercheurs affirment que créer des expressions faciales réalistes pilotées par l’audio pose un défi complexe. Pour un signal audio donné, il peut y avoir de nombreuses expressions faciales possibles qui auraient un sens, et ces possibilités peuvent se multiplier lorsqu’il s’agit d’une séquence de signaux audio au fil du temps.

Étant donné que l’audio est généralement fortement associé aux mouvements des lèvres, mais plus faible aux expressions faciales et à la position de la tête, l’équipe a cherché à créer des visages parlants présentant une synchronisation précise des lèvres, des expressions faciales riches et des mouvements de tête naturels correspondant à l’audio fourni.

Pour résoudre ce problème, l’équipe a d’abord conçu son modèle d’IA, DIRFA, pour capturer les relations complexes entre les signaux audio et les animations faciales. L’équipe a formé son modèle sur plus d’un million de clips audio et vidéo de plus de 6 000 personnes, issus d’une base de données accessible au public.

Assoc Prof Lu a ajouté : « Plus précisément, DIRFA a modélisé la probabilité d’une animation faciale, telle qu’un sourcil levé ou un nez ridé, sur la base de l’audio d’entrée. Cette modélisation a permis au programme de transformer l’entrée audio en séquences diverses mais très réalistes d’animations faciales. des animations pour guider la génération de visages parlants.

Le Dr Wu a ajouté : « Des expériences approfondies montrent que DIRFA peut générer des visages parlants avec des mouvements de lèvres précis, des expressions faciales vives et des poses de tête naturelles. Cependant, nous travaillons à améliorer l’interface du programme, permettant de contrôler certaines sorties. Par exemple, DIRFA le fait. ne permet pas aux utilisateurs d’ajuster une certaine expression, comme changer un froncement de sourcils en un sourire. »

En plus d’ajouter davantage d’options et d’améliorations à l’interface de DIRFA, les chercheurs de NTU affineront ses expressions faciales avec une gamme plus large d’ensembles de données comprenant des expressions faciales et des clips audio vocaux plus variés.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*