Utiliser le langage pour permettre aux robots de mieux comprendre un monde ouvert

Les champs de fonctionnalités pour le traitement robotique (F3RM) permettent aux robots d’interpréter des invitations de texte ouvertes en langage naturel, aidant ainsi les machines à gérer des objets inconnus. Les champs de fonctionnalités three-D du système peuvent être utiles dans des environnements contenant des milliers d’objets, tels que des entrepôts. Crédit : William Shen et al.

Imaginez que vous rendez visite à un ami et que vous regardez dans son réfrigérateur pour voir ce qu’il pourrait préparer pour un bon petit-déjeuner. De nombreux articles vous semblent étranges au premier abord, automobile chacun est emballé dans des emballages et des contenants inconnus. Malgré ces différences visuelles, vous commencez à comprendre à quoi sert chacun et à les récupérer selon vos besoins.

Inspiré par l. a. capacité des humains à manipuler des objets inconnus, un groupe du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du Massachusetts Institute of Generation (MIT) a conçu Function Fields for System Manipulation (F3RM), un système qui mélange des pictures 2D avec fonctionnalités de base du modèle dans les scènes.Rendu three-D pour aider les robots à reconnaître et à comprendre les objets à proximité. F3RM peut interpréter des invitations linguistiques ouvertes provenant d’humains, ce qui rend l. a. méthode utile dans des environnements réels contenant des milliers d’objets, tels que des entrepôts et des maisons.

F3RM offre aux robots l. a. capacité d’interpréter des invitations de texte ouvertes en langage naturel, aidant ainsi les machines à manipuler des objets. En conséquence, les machines peuvent comprendre des demandes moins spécifiques que les humains tout en accomplissant l. a. tâche demandée. Par exemple, si un utilisateur demande à un robotic de « ramasser une grande tasse », le robotic peut localiser et ramasser l’élément qui correspond le mieux à cette description.

“Créer des robots capables de se généraliser au monde réel est très difficile”, explique Ji Yang, chercheur postdoctoral à l’Institut pour l’intelligence artificielle et les interactions fondamentales de l. a. Nationwide Science Basis et au MIT CSAIL. “Nous voulons vraiment savoir remark faire cela, donc avec ce projet, nous essayons d’atteindre un niveau robuste de généralisabilité, de seulement trois ou quatre choses à tout ce que nous trouvons au Stata Heart du MIT. Nous voulions apprendre à fabriquer des robots flexibles comme le nôtre : “Nous pouvons tenir et placer des objets même si nous ne les avons jamais vus auparavant.”

Apprenez « ce qu’est un endroit en regardant »

Cette méthode pourrait aider les robots à sélectionner des articles dans de grands centres de distribution qui souffrent d’un chaos et d’une imprévisibilité inévitables. Dans ces entrepôts, les robots reçoivent souvent une description de l’inventaire qu’ils sont invités à sélectionner. Les robots doivent faire correspondre le texte fourni pour un objet, quelles que soient les différences d’emballage, afin que les commandes des shoppers soient expédiées correctement.

Par exemple, les centres de distribution des principaux détaillants en ligne peuvent contenir des thousands and thousands d’articles, dont beaucoup n’ont jamais été rencontrés par le robotic auparavant. Pour fonctionner à cette échelle, les robots doivent comprendre l. a. géométrie et l. a. sémantique de différents éléments, dont certains s’intègrent dans des espaces restreints. Grâce aux capacités avancées de belief spatiale et sémantique du F3RM, le robotic peut devenir plus efficace pour localiser un objet, le placer dans l. a. poubelle puis l’envoyer pour emballage. En fin de compte, cela aidera les ouvriers de l’usine à livrer les commandes des shoppers plus efficacement.

“Une selected qui surprend souvent les utilisateurs de F3RM est que le même système fonctionne également à l’échelle d’une pièce et d’un bâtiment, et peut être utilisé pour créer des environnements simulés pour l’apprentissage de l. a. robotique et de grandes cartes”, explique Yang. “Mais avant d’étendre ce travail, nous voulons d’abord faire fonctionner ce système très rapidement. De cette façon, nous pouvons utiliser ce kind de représentation pour des tâches de contrôle robotique plus dynamiques, et, espérons-le, en temps réel, afin que les robots qui gèrent ” Des tâches plus dynamiques peuvent être utilisées pour l. a. belief. »

L’équipe du MIT souligne que l. a. capacité du F3RM à comprendre différentes scènes pourrait le rendre utile dans les environnements urbains et domestiques. Par exemple, cette approche pourrait aider les robots personnalisés à identifier et à récupérer des éléments spécifiques. Le système aide les robots à comprendre leur environnement, à l. a. fois physiquement et cognitivement.

“David Marr a défini l. a. belief visuelle comme le problème de savoir” ce qu’est un endroit en regardant “”, explique l’auteur important Philip Isola, professeur adjoint de génie électrique et d’informatique au MIT et chercheur important au CSAIL.

“Les modèles de base modernes sont devenus très efficaces pour savoir ce que vous regardez ; ils peuvent reconnaître des milliers de categories d’objets et fournir des descriptions textuelles détaillées des pictures. Dans le même temps, les champs de rayonnement sont devenus très efficaces pour représenter où se trouvent les choses dans un scène.” Combiner ces deux approches “Cela peut créer une représentation de ce qui existe en three-D, et ce que nos travaux montrent, c’est que cette combinaison est particulièrement utile pour les tâches robotiques, qui nécessitent l. a. manipulation d’objets three-D.”

Créer un « jumeau numérique »

F3RM begin à comprendre son environnement en prenant des footage avec l. a. perche à selfie. L. a. caméra montée prend 50 pictures dans différentes positions, ce qui lui permet de créer un champ de rayonnement neuronal (NeRF), une méthode d’apprentissage en profondeur qui prend des pictures 2D pour créer une scène three-D. Cet ensemble d’pictures RVB crée un « jumeau numérique » de l’environnement sous l. a. forme d’une représentation à 360 degrés de ce qui se trouve à proximité.

En plus du domaine très détaillé du rayonnement neuronal, F3RM crée également un domaine distinct pour améliorer l. a. géométrie avec des informations sémantiques. Le système utilise CLIP, un modèle de imaginative and prescient de base formé sur des centaines de thousands and thousands d’pictures pour apprendre efficacement les ideas visuels. En reconstruisant les caractéristiques 2D CLIP des pictures capturées par une perche à selfie, F3RM transforme efficacement les caractéristiques 2D en une représentation three-D.

Gardez les choses ouvertes

Après avoir reçu quelques démonstrations, le robotic applique ce qu’il sait en géométrie et en sémantique pour comprendre des choses qu’il n’a jamais rencontrées auparavant. Une fois qu’un utilisateur soumet une requête textuelle, le robotic recherche l’espace de saisie potentiel pour identifier les personnes les plus susceptibles de réussir à récupérer l’objet demandé par l’utilisateur. Chaque choice potentielle est notée en fonction de sa pertinence pour le routeur, de sa similarité avec les démonstrations sur lesquelles le bot a été formé et de l. a. query de savoir si elle provoque des collisions. Le rating le plus élevé est ensuite sélectionné et mis en œuvre.

Pour démontrer l. a. capacité du système à interpréter les requêtes ouvertes des humains, les chercheurs ont demandé au robotic de capturer Baymax, un personnage du movie Disney “Large Hero 6”. Bien que F3RM n’ait pas été directement formé pour ramasser un super-héros de dessin animé, le robotic a utilisé sa sense of right and wrong spatiale et ses fonctionnalités de langage visuel des modèles de base pour décider quoi saisir et remark le ramasser.

F3RM permet également aux utilisateurs de spécifier l’objet qu’ils souhaitent que le robotic gère à différents niveaux de détail linguistique. Par exemple, s’il y a une tasse en métal et une tasse en verre, l’utilisateur peut demander au bot « tasse en verre ». Si le robotic voit deux tasses en verre, l’une remplie de café et l’autre remplie de jus, l’utilisateur peut demander « tasse en verre avec café ». Les fonctionnalités de base du modèle incluses dans le champ des fonctionnalités permettent ce niveau de compréhension ouverte.

“Si vous montrez à quelqu’un remark prendre une tasse par les lèvres, il peut facilement transférer ces connaissances pour ramasser des objets ayant des formes géométriques similaires comme des bols, des tasses à mesurer ou même des rouleaux de ruban adhésif. Pour les robots, atteindre ce niveau d’adaptabilité a Cela a été un énorme défi. » « », déclare William Shen, étudiant en doctorat au MIT, affilié au CSAIL et co-auteur.

“F3RM mix l. a. compréhension method et l. a. sémantique des modèles sous-jacents formés sur des données à l’échelle Web pour permettre ce niveau de généralisation robuste à partir d’un petit nombre de démonstrations seulement.”

L’article, intitulé « Les champs de fonctionnalités distillés permettent une manipulation dirigée du langage en quelques instantanés », a été publié dans arXiv Serveur d’impact avancé.

Plus d’data:
William Shen et al., Les champs de fonctionnalités distillés permettent une manipulation guidée par le langage en quelques instantanés seulement. arXiv (2023). est ce que je: 10.48550/arxiv.2308.07931

Informations sur les magazines :
arXiv

Fourni par le MIT

Cette histoire a été republiée grâce à MIT Information (internet.mit.edu/newsoffice/), un website online populaire couvrant l’actualité de l. a. recherche, de l’innovation et de l’enseignement du MIT.

l. a. quotation: Utiliser le langage pour donner aux robots une meilleure compréhension d’un monde ouvert (2 novembre 2023) Récupéré le 2 novembre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.