Créez des « têtes parlantes » réalistes à l’aide d’un logiciel basé sur l’IA

DIRFA se examine aux méthodes de création de visages parlants audio de pointe. Crédit : Université technologique de Nanyang

Une équipe de chercheurs dirigée par le professeur agrégé Lu Shijian de l’École d’informatique et d’ingénierie de NTU a développé un programme informatique qui crée des vidéos réalistes reflétant les expressions faciales et les mouvements de los angeles tête de los angeles personne qui parle, ne nécessitant qu’un clip audio et une symbol de los angeles personne qui parle. affronter. .

L’animation faciale diversifiée et réaliste, ou DIRFA, est un programme basé sur l’IA qui seize l’audio et l’symbol et produit une vidéo 3-D montrant une personne affichant des animations faciales réalistes et cohérentes synchronisées avec l’audio parlé. Le logiciel développé par NTU améliore les méthodes existantes, qui souffrent de permutations de posture et de contrôle émotionnel.

Pour y parvenir, l’équipe a formé DIRFA sur plus d’un million de clips audio et vidéo provenant de plus de 6 000 personnes, extraits d’une base de données open supply, pour prédire les signaux de los angeles parole et les corréler avec les expressions faciales et les mouvements de los angeles tête.







Une « tête parlante » créée par los angeles DIRFA contient uniquement un enregistrement audio de l’ancien président américain Barack Obama s’exprimant et une picture du professeur agrégé Lu Shijian. Crédit : Université technologique de Nanyang

Les chercheurs ont déclaré que le DIRFA pourrait conduire à de nouvelles packages dans divers secteurs et domaines, y compris les soins de santé, automotive il pourrait permettre des assistants virtuels et des chatbots plus sophistiqués et plus réalistes, améliorant ainsi l’expérience des utilisateurs. Il peut également constituer un outil puissant pour les personnes souffrant de troubles de los angeles parole ou du visage, les aidant à transmettre leurs pensées et leurs émotions à travers des avatars expressifs ou des représentations numériques, améliorant ainsi leur capacité à communiquer.

“L’have an effect on de notre étude pourrait être profond et de grande envergure, automotive elle révolutionne le monde du multimédia”, a déclaré l’auteur correspondant, le professeur Lu Shijian, de l’École d’informatique et d’ingénierie (SCSE) de NTU Singapour, qui a dirigé l’étude. Conversation en permettant los angeles création de vidéos très réalistes d’individus parlant, combinant des applied sciences telles que l’intelligence artificielle et l’apprentissage automatique.

“Notre logiciel s’appuie également sur des études antérieures et représente une avancée technologique, automotive les vidéos créées avec notre logiciel sont complétées par des mouvements subtils des lèvres, des expressions faciales en direct et des positions naturelles de los angeles tête, en utilisant uniquement des enregistrements audio et des pictures fixes.”

Premier auteur, le Dr Wu Rongliang, Ph.D. Le diplômé de NTU a déclaré : “Los angeles parole présente de nombreuses permutations. Les individus prononcent les mêmes mots différemment dans divers contextes, y compris des différences de durée, d’amplitude, de ton et plus encore. De plus, au-delà de son contenu linguistique, los angeles parole transmet de riches informations sur l’état émotionnel et les facteurs du locuteur. … Identité telle que le sexe, l’âge, los angeles race et même les characteristics de personnalité.

« Notre approche représente un effort pionnier dans l’amélioration des performances du level de vue de l’apprentissage de los angeles représentation vocale dans l’intelligence artificielle et l’apprentissage automatique. » Le Dr Wu est chercheur scientifique à l’Institut de recherche sur l’data et los angeles communique, Agence pour los angeles science, los angeles technologie et los angeles recherche (A*STAR), à Singapour.

Les résultats ont été publiés dans los angeles revue Los angeles reconnaissance de formes.







Une « tête parlante » créée par DIRFA présente une symbol du premier auteur de l’étude, le Dr Wu Rongliang. Crédit : Université technologique de Nanyang

Volumes parlants : transformez l’audio en motion avec une précision animée

Créer des expressions faciales réalistes pilotées par le son est un défi complexe, affirment les chercheurs. Pour un sign audio donné, il peut y avoir de nombreuses expressions faciales possibles qui pourraient avoir un sens, et ces possibilités peuvent se multiplier lorsqu’il s’agit de traiter une série de signaux audio au fil du temps.

Étant donné que los angeles voix est généralement fortement associée aux mouvements des lèvres, mais plus faible aux expressions faciales et aux postures de los angeles tête, l’équipe a cherché à créer des visages parlants présentant une synchronisation précise des lèvres, des expressions faciales riches et des mouvements de tête naturels cohérents avec los angeles voix présentée.

Pour résoudre ce problème, l’équipe a d’abord conçu son propre modèle d’intelligence artificielle, DIRFA, pour capturer les members of the family complexes entre les signaux audio et les animations faciales. Le professeur adjoint Lu a ajouté : “Plus précisément, DIRFA a modélisé los angeles probabilité d’une animation faciale, telle qu’un sourcil levé ou un nez ridé, sur los angeles base du son d’entrée. Cette modélisation a permis au logiciel de transformer l’entrée sonore en séquences d’animation faciale diverses mais très réalistes. ” « Des animations pour guider los angeles génération des visages parlants.

“Des expériences approfondies montrent que DIRFA peut créer des visages parlants avec des mouvements de lèvres précis, des expressions faciales vives et des positions naturelles de los angeles tête. Cependant, nous travaillons à améliorer l’interface du logiciel, permettant de contrôler certaines sorties. Par exemple, DIRFA ne permet pas aux utilisateurs de « modifier une expression spécifique », « comme changer un froncement de sourcils en un sourire. »

En plus d’ajouter davantage d’choices et d’améliorations à l’interface DIRFA, les chercheurs de NTU affineront les expressions faciales à l’aide d’un plus huge éventail d’ensembles de données comprenant des expressions faciales et des clips audio plus diversifiés.

Plus d’data:
Rongliang Wu et al.,Création de visages parlants vocaux avec des animations faciales diverses et réalistes, Los angeles reconnaissance de formes (2023). est ce que je: 10.1016/j.patcog.2023.109865. sur arXivDOI : 10.48550/arxiv.2304.08945

Informations sur les magazines :
arXiv

Fourni par l’Université technologique de Nanyang

los angeles quotation: Création de « têtes parlantes » réalistes avec un logiciel basé sur l’IA (16 novembre 2023) Récupéré le 16 novembre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.