Le nouvel outil d’optimisation permet une meilleure estimation du mouvement vidéo

Nous présentons une nouvelle méthode pour estimer les trajectoires de mouvement sur toute l. a. longueur de chaque pixel de chaque symbol vidéo, comme le montrent les trajectoires de mouvement présentées ci-dessus. Pour plus de clarté, nous affichons uniquement les trajectoires clairsemées des objets au premier plan, même si notre méthode calcule le mouvement pour tous les pixels. Notre méthode produit un mouvement à longue distance précis et cohérent, même pour les objets en mouvement rapide, et swimsuit de manière robuste les occlusions, comme le montrent les exemples de chien et de balançoire. Pour le contexte, dans l. a. deuxième rangée, nous représentons l’objet en mouvement à différents moments. crédit: arXiv (2023). DOI : 10.48550/arxiv.2306.05422

Des chercheurs de l’Université Cornell ont développé un nouvel outil d’optimisation pour estimer le mouvement lors d’une vidéo d’entrée, qui a des packages potentielles dans le montage vidéo et l. a. création de vidéos IA.

L’outil, appelé OmniMotion, est décrit dans un article intitulé « Suivez tout, partout, à chaque fois », présenté lors de l. a. Conférence internationale sur l. a. imaginative and prescient par ordinateur, du 2 au 6 octobre à Paris.

“Il existe deux paradigmes dominants dans l’estimation du mouvement : le flux optique, qui est dense mais à courte portée, et le suivi des caractéristiques, qui est clairsemé mais à longue portée”, a déclaré Noah Snavely, professeur adjoint d’informatique à Cornell Tech et Anne. L’Université de Cornell. Collège S. Powers d’informatique et des sciences de l’knowledge. « Notre méthode nous permet d’obtenir un suivi dense et à lengthy terme dans le temps. »

OmniMotion utilise ce que les chercheurs appellent l. a. « représentation pseudo-3-D » : une forme pratique de 3-D qui preserve des propriétés importantes (telles que le suivi des pixels lorsqu’ils passent derrière d’autres objets) sans les défis de l. a. reconstruction 3-D dynamique.

“Nous avons trouvé un moyen de lui faire apprécier fondamentalement l. a. 3-D de manière plus qualitative”, a déclaré Snavely. “Il dit : ‘Je ne sais pas exactement où se trouvent ces deux objets dans l’espace 3-D, mais je sais que cet objet est devant celui-là.’ Vous ne pouvez pas le considérer comme un modèle 3-D, automobile les choses seront déformé, mais il seize les family members d’ordre entre les objets.

Los angeles nouvelle méthode prend un petit échantillon d’photographs et d’estimations de mouvement pour créer une représentation complète du mouvement de l. a. vidéo entière. Une fois optimisée, l. a. représentation peut être interrogée en utilisant n’importe quel pixel dans n’importe quelle symbol pour produire une trajectoire de mouvement fluide et précise sur toute l. a. vidéo.

Cela sera utile lors de l’intégration d’photographs générées par ordinateur, ou CGI, dans le montage vidéo, a déclaré Snavely.

“Si je veux mettre quelque selected, comme un autocollant, sur une vidéo, je dois savoir où il se trouve dans chaque symbol”, a-t-il déclaré. “Je l’ai donc mis dans l. a. première symbol de l. a. vidéo ; et pour éviter d’avoir à éditer minutieusement chaque symbol suivante, ce serait bien si je pouvais garder une hint de l’endroit où il devrait être dans chaque symbol – et aussi s’il ne devait pas l’être. là, s’il y a quelque selected qui le retient.

OmniMotion peut également aider à éclairer les algorithmes dans les packages de conversion texte-vidéo, a déclaré Snavely.

« Bien souvent, les modèles texte-vidéo ne sont pas très cohérents », a-t-il déclaré. “Les objets changeront de taille au cours de l. a. vidéo, ou les gens se déplaceront de manière étrange, et c’est parce qu’ils ne font que créer les pixels bruts de l. a. vidéo. Ils n’ont aucune idée de l. a. dynamique sous-jacente qui pourrait provoquer l. a. déformation des pixels. se déplacer.

“Nous espérons qu’en fournissant des algorithmes pour estimer le mouvement dans les vidéos, nous pourrons contribuer à améliorer l. a. cohérence du mouvement dans les vidéos générées”, a-t-il déclaré.

Qianqian Wang, chercheur postdoctoral à l’Université de Californie à Berkeley et chercheur scientifique chez Google Analysis, en était l’auteur main. Les autres co-auteurs étaient Bharat Hariharan, professeur adjoint d’informatique à Cornell Powers CIS ; les doctorants Yinyu Zhang et Jin Cai ; Alexander Holinsky, chercheur postdoctoral à Berkeley et chercheur chez Google Analysis ; et Zhengqi Li de Google Analysis.

Également lors de l. a. conférence, Cai a présenté « Doppelgangers : apprendre à lever l’ambiguïté des photographs avec des buildings similaires », qui utilise un ensemble massif de données de paires d’photographs pour entraîner les packages de imaginative and prescient par ordinateur à distinguer les photographs qui se ressemblent mais qui ne ressemblent pas aux différents côtés d’une montre. Excursion ou bâtiment.

Pour Doppelgangers, Snavely et son équipe démontrent remark utiliser les annotations d’photographs existantes stockées dans l. a. base de données d’photographs Wikimedia Commons pour générer automatiquement un huge ensemble de paires d’photographs étiquetées de surfaces 3-D.

Doppelgangers consiste en une assortment d’photographs Web de monuments et de websites culturels qui affichent des motifs répétitifs et des buildings similaires. L’ensemble de données comprend un grand nombre de paires d’photographs, chacune étant classée en paires de correspondance positives ou négatives.

“Giant Ben ou l. a. Excursion Eiffel se ressemblent sous différents angles”, a déclaré Snavely. “Los angeles imaginative and prescient par ordinateur n’est pas assez performante pour distinguer les deux côtés. Nous avons donc inventé un moyen de déterminer quand deux choses se ressemblent mais sont différentes, et quand deux choses sont en réalité identiques.”

Dans Doppelgangers, un réseau neuronal est formé pour évaluer l. a. distribution spatiale des issues clés d’une symbol, afin de distinguer des paires d’photographs qui se ressemblent mais sont différentes – comme deux visages différents de Giant Ben – des photographs avec un contenu de scène réellement identique. Cela sera utile dans l. a. technologie de reconstruction 3-D, a déclaré Snavely.

“Le réseau est vulnerable d’apprendre des choses comme si les arrière-plans sont identiques ou différents, ou s’il existe d’autres détails qui les distinguent”, a-t-il déclaré. “Cela produit alors une probabilité : ces objets sont-ils vraiment identiques, ou semblent-ils simplement identiques ? Nous pouvons ensuite combiner cela avec des lignes de reconstruction 3-D pour créer de meilleurs modèles.”

Plus d’knowledge:
Qianqian Wang et al., traquant tout partout en même temps, arXiv (2023). DOI : 10.48550/arxiv.2306.05422

Rojin Kai et al., Doppelgangers : Apprendre à lever l’ambiguïté des photographs de buildings similaires. arXiv (2023). DOI : 10.48550/arxiv.2309.02420

Informations sur les magazines :
arXiv

Fourni par l’Université Cornell

l. a. quotation: Un nouvel outil d’optimisation permet une meilleure estimation du mouvement vidéo (10 octobre 2023) Récupéré le 31 octobre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.