Le modèle IA crée instantanément une symbol 3-D à partir d’un échantillon 2D

L’structure globale de LRM, un cadre d’encodeur et de décodeur basé sur un transformateur entièrement différenciable pour los angeles reconstruction d’une symbol distinctive en NeRF. LRM applique un modèle de imaginative and prescient pré-entraîné (DINO) pour coder l’symbol d’entrée (Phase 3.1), où les caractéristiques de l’symbol sont projetées sur une représentation 3-D par un grand décodeur de transformateur by the use of une consideration mutuelle (Phase 3.2), suivi d’un perceptron multicouche pour prédire les issues. couleur et intensité pour l’affichage.Volumétrique (Phase 3.3). L’ensemble du réseau est formé de manière exhaustive sur environ un million de données 3-D (phase 4.1) avec des pertes mineures de reconstruction d’symbol (phase 3.4). crédit: arXiv (2023). DOI : 10.48550/arxiv.2311.04400

Dans le monde émergent de l’informatique à grande échelle, ce n’était qu’une query de temps avant qu’une avancée révolutionnaire ne soit prête à bouleverser le domaine de los angeles visualisation 3-D.

Adobe Analysis et l’Université nationale australienne (ANU) ont annoncé le premier modèle d’IA succesful de créer des photographs 3-D à partir d’une seule symbol 2D.

Dans le cadre d’un développement qui pourrait changer le processus de création de modèles 3-D, les chercheurs affirment que leur nouvel algorithme, formé sur d’énormes échantillons d’photographs, peut créer de telles photographs 3-D en quelques secondes.

Le modèle de reconstruction à grande échelle (LRM) est basé sur un réseau neuronal hautement évolutif contenant 1 million d’ensembles de données avec 500 hundreds of thousands de paramètres, a déclaré Yicong Hong, stagiaire chez Adobe et ancien étudiant diplômé de l’École d’ingénierie, d’informatique et de cybernétique de l’Université nationale australienne. Ces ensembles de données comprennent des photographs, des formes 3-D et des vidéos.

“Cette combinaison d’un modèle haute capacité et de données d’entraînement à grande échelle permet à notre modèle d’être hautement généralisable et de produire des reconstructions 3-D de haute qualité à partir de différentes entrées de take a look at”, a déclaré Hong, auteur major d’un rapport sur le projet.

“À notre connaissance, (notre) LRM est le premier modèle de reconstruction 3-D à grande échelle.”

Los angeles réalité augmentée, los angeles réalité virtuelle, les jeux, l’animation cinématographique et le design industriel devraient bénéficier de cette technologie transformatrice.

Les premiers logiciels d’imagerie 3-D ne fonctionnaient bien que dans des catégories de sujets spécifiques avec des formes prédéfinies. Des progrès ultérieurs dans los angeles génération d’photographs ont été réalisés à l’aide de programmes tels que DALL-E et Solid Diffusion, qui « ont tiré parti de los angeles remarquable capacité de généralisation des modèles de diffusion 2D pour permettre des vues multiples », a expliqué Hong. Cependant, les résultats de ces programmes étaient limités à des modèles génératifs 2D pré-entraînés.

D’autres systèmes ont utilisé l’amélioration de los angeles forme pour obtenir des résultats impressionnants, mais ils sont « souvent lents et peu maniables », selon Hong.

Hong a déclaré que le développement de modèles de langage naturel au sein de grands réseaux de transformateurs qui utilisent des données à grande échelle pour maximiser les tâches de prédiction du mot suivant a encouragé son équipe à se poser los angeles query : « Est-il conceivable d’apprendre un modèle 3-D général avant de reconstruire un objet à partir d’un seul modèle ? symbol?”

Leur réponse a été « oui ».

“LRM peut reconstruire des formes 3-D haute résolution à partir d’une massive gamme d’photographs capturées dans le monde réel, ainsi que d’photographs générées par des modèles génératifs”, a déclaré Hong. « LRM est également une resolution très pratique pour les packages en aval, automobile il peut produire une forme 3-D en seulement cinq secondes sans nécessiter d’optimisation ultérieure. »

Le succès du programme réside dans sa capacité à s’appuyer sur sa base de données de hundreds of thousands de paramètres d’photographs et à prédire le champ de rayonnement neuronal (NeRF). Il s’agit de los angeles capacité de créer des photographs 3-D réalistes basées uniquement sur des photographs 2D, même si ces photographs sont en basse résolution. NeRF possède des capacités de synthèse d’photographs, de détection d’objets et de segmentation d’photographs.

Il y a 60 ans, le premier programme informatique était créé permettant aux utilisateurs de créer et de manipuler des formes 3-D simples. Planche à dessin, conçue par Ivan Sutherland dans le cadre de sa thèse de doctorat. thèse au MIT, disposait d’un general de 64 Ko de mémoire.

Au fil des décennies, les logiciels 3-D ont évolué à pas de géant avec des programmes tels qu’AutoCAD, 3-D Studio, SoftImage 3-D, RenderMan et Maya.

L’article de Hong “LRM : Huge Unmarried-Symbol Reconstruction Style to 3-D” a été téléchargé sur le serveur de préimpression arXiv Le 8 novembre.

Plus d’knowledge:
Yicong Hong et al.,LRM : Modèle de reconstruction d’une symbol distinctive en 3-D à grande échelle, arXiv (2023). DOI : 10.48550/arxiv.2311.04400

Web page du projet : yiconghong.me/LRM/

Informations sur les magazines :
arXiv

© 2023 Réseau ScienceX

los angeles quotation: Un modèle IA crée instantanément une symbol 3-D à partir d’un échantillon 2D (13 novembre 2023) Récupéré le 14 novembre 2023 sur

Ce record est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.