Les pictures synthétiques établissent une nouvelle norme en matière d’efficacité de los angeles formation en IA

Une équipe du MIT étudie los angeles possibilité d’apprendre des représentations visuelles à l’aide d’pictures synthétiques générées par des modèles texte-image. Ils sont les premiers à montrer que les modèles formés à l’aide uniquement d’pictures synthétiques surpassent leurs homologues formés à l’aide d’pictures réelles, dans des contextes à grande échelle. Supply de l’picture : Alex Shipps/MIT CSAIL by means of le générateur d’pictures Midjourney AI

Les données sont le nouveau sol, et dans ce nouveau terrain fertile, les chercheurs du MIT plantent bien plus que de simples pixels. En utilisant des pictures synthétiques pour entraîner des modèles d’apprentissage automatique, une équipe de scientifiques a récemment réussi à aller au-delà des résultats obtenus à partir des méthodes traditionnelles d’entraînement par « pictures réelles ».

Au cœur de cette approche se trouve un système appelé StableRep, qui n’utilise pas seulement des pictures synthétiques ; Il les crée by means of des modèles texte-image très populaires comme Strong Diffusion. C’est comme créer des mondes avec des mots.

Alors, qu’y a-t-il dans los angeles sauce secrète de StableRep ? Une stratégie appelée « apprentissage différentiel multi-positif ».

“Nous enseignons au modèle pour en apprendre davantage sur les ideas de haut niveau à travers le contexte et los angeles variation, et pas seulement en lui fournissant des données”, explique Lijie Fan, Ph.D. au MIT. étudiant en génie électrique, affilié au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT, et chercheur foremost sur des travaux actuellement publiés dans arXiv Serveur d’impact avancé.

“Lorsque plusieurs pictures sont créées, toutes à partir du même texte, et qu’elles sont toutes traitées comme une représentation du même objet de base, le modèle approfondit les ideas derrière les pictures, par exemple l’objet, et pas seulement ses pixels.”

Cette approche considère plusieurs pictures résultant d’invitations de texte identiques comme des paires positives, fournissant des informations supplémentaires pendant los angeles formation, ajoutant non seulement plus de diversité, mais identifiant des pictures similaires et différentes dans le système visuel. Remarquablement, StableRep surpasse les modèles de haut niveau formés sur des pictures réelles, tels que SimCLR et CLIP, sur des ensembles de données à grande échelle.

“Bien que StableRep aide à atténuer les défis d’acquisition de données dans l’apprentissage automatique, il annonce également une étape vers une nouvelle ère de tactics de formation en IA. L. a. capacité de produire des pictures synthétiques diverses et de haute qualité à los angeles demande peut aider à réduire les dépenses et les ressources fastidieuses”, dit-il. .Van.

Le processus de collecte de données n’était pas clair du tout. Dans les années 1990, les chercheurs devaient capturer manuellement des pictures pour compiler des ensembles de données d’objets et de visages. Les années 2000 ont vu des individus rechercher des données sur Web. Cependant, ces données brutes et non formatées contiennent souvent des incohérences par rapport aux scénarios du monde réel et reflètent des préjugés sociétaux, présentant une imaginative and prescient déformée de los angeles réalité.

L. a. tâche consistant à affiner les ensembles de données grâce à l’intervention humaine est non seulement coûteuse, mais aussi extrêmement difficile. Imaginez, cependant, si ce processus fastidieux de collecte de données pouvait être réduit à quelque selected d’aussi easy que l’émission d’une commande en langage naturel.

Un side essentiel de los angeles victoire de StableRep a été los angeles amendment de « l’échelle d’orientation » dans le modèle génératif, qui garantit un équilibre minutieux entre los angeles diversité et los angeles précision des pictures synthétiques. Une fois affinées, les pictures synthétiques utilisées pour former ces modèles auto-supervisés se sont révélées aussi efficaces, sinon plus, que les pictures réelles.

Pour aller plus loin, los angeles modération linguistique a été ajoutée au mélange, créant une variante améliorée : StableRep+. Lorsque StableRep+ a été entraîné à l’aide de 20 thousands and thousands d’pictures synthétiques, il a non seulement atteint une précision supérieure, mais a également démontré une efficacité remarquable par rapport aux modèles CLIP entraînés à l’aide d’un nombre stupéfiant de 50 thousands and thousands d’pictures réelles.

Cependant, le chemin à parcourir n’est pas sans nids-de-poule. Les chercheurs abordent explicitement plusieurs obstacles, notamment los angeles lenteur actuelle de los angeles génération d’pictures, les inadéquations sémantiques entre les invitations textuelles et les pictures résultantes, l’amplification potentielle des biais et los angeles complexité de l’attribution des pictures, qui doivent tous être résolus pour de futurs progrès.

Un autre problème est que StableRep nécessite d’abord de former le modèle génératif sur des données réelles à grande échelle. L’équipe se rend compte qu’il est encore nécessaire de partir de données réelles ; Cependant, lorsque vous disposez d’un bon modèle génératif, vous pouvez le réutiliser pour de nouvelles tâches, telles que los angeles formation de modèles de reconnaissance et de représentations visuelles.

L’équipe souligne qu’elle n’a pas contourné los angeles nécessité de commencer avec des données réelles ; C’est juste qu’une fois que vous disposez d’un bon modèle génératif, vous pouvez le réutiliser pour de nouvelles tâches, telles que los angeles formation de modèles de reconnaissance et de représentations visuelles.

Bien que StableRep offre une bonne resolution en réduisant los angeles dépendance à l’égard de grands ensembles d’pictures réelles, il met en évidence des préoccupations concernant les biais cachés dans les données non formatées utilisées dans ces modèles texte-image. L. a. sélection de texte, partie intégrante du processus de composition d’picture, n’est pas totalement exempte de préjugés, « ce qui suggère le rôle essentiel d’une sélection minutieuse du texte ou d’une éventuelle curation humaine », explique Fan.

“Grâce aux derniers modèles de conversion texte-image, nous avons acquis un contrôle sans précédent sur los angeles création d’pictures, permettant de créer une variété d’éléments visuels à partir d’une seule saisie de texte. Cela surpasse los angeles assortment d’pictures du monde réel en termes d’efficacité et de polyvalence. Cela a prouvé être particulièrement utile pour des tâches spécialisées », telles que l’équilibrage de los angeles diversité des pictures dans los angeles reconnaissance longue traîne, fournit un complément pratique à l’utilisation d’pictures réelles pour los angeles formation », explique Fan.

“Notre travail représente un pas en avant dans l’apprentissage visuel, vers l’objectif de fournir des choices de formation rentables tout en soulignant los angeles nécessité d’améliorer continuellement los angeles qualité et los angeles synthèse des données.”

“L’un des rêves de l’apprentissage de modèles génératifs a longtemps été los angeles capacité de générer des données utiles pour former des modèles discriminants”, déclare David Flett, chercheur sur Google DeepMind et professeur d’informatique à l’Université de Toronto, qui n’a pas participé à cet article. .

“Même si nous avons vu quelques signes de vie, le rêve était insaisissable, en particulier dans les domaines complexes et à grande échelle tels que les pictures haute résolution. Cet article fournit los angeles preuve irréfutable, pour los angeles première fois à ma connaissance, que le rêve est devenu réalité. Ils ont montré que l’apprentissage différencié, à partir de grandes quantités de données d’pictures synthétiques, peut produire des représentations qui surpassent celles apprises à partir de données réelles à grande échelle, avec le potentiel d’améliorer d’innombrables tâches de imaginative and prescient en aval.

Plus d’knowledge:
Yonglong Tian et al., StableRep : Les pictures synthétiques problems de modèles texte-image permettent aux apprenants de disposer de représentations visuelles puissantes, arXiv (2023). DOI : 10.48550/arxiv.2306.00984

Informations sur les magazines :
arXiv

Fourni par le MIT

los angeles quotation: Les pictures synthétiques établissent une nouvelle norme pour l’efficacité de los angeles formation en IA (20 novembre 2023) Récupéré le 20 novembre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.