Un exemple de navigation personnelle interactive sans prise de vue. Il y a trois ordinateurs dans los angeles pièce que le robotic n’a jamais vu auparavant. Le however est de retrouver l’ordinateur d’Alice. Le bot start par trouver los angeles mauvaise selected et doit communiquer avec l’utilisateur et utiliser ses commentaires pour définir un objectif staff. Crédit : Dai et al.
Les robots devraient idéalement interagir avec les utilisateurs et les objets de leur environnement de manière versatile, plutôt que d’adhérer toujours aux mêmes ensembles de réponses et d’movements. Une approche robotique visant à atteindre cet objectif et qui a récemment suscité un intérêt essential dans los angeles recherche est los angeles navigation d’objets à tir nul (ZSON).
ZSON implique le développement de tactics informatiques avancées qui permettent aux brokers robotiques de naviguer dans des environnements inconnus, d’interagir avec des objets auparavant invisibles et de répondre à un huge éventail d’invitations. Bien que certaines de ces tactics aient produit des résultats prometteurs, elles permettent souvent aux robots uniquement de localiser des catégories générales d’objets, plutôt que d’utiliser le traitement du langage naturel pour comprendre une invite utilisateur et localiser des objets spécifiques.
Une équipe de chercheurs de l’Université du Michigan a récemment entrepris de développer une nouvelle approche qui améliorerait los angeles capacité des robots à explorer et à naviguer dans des environnements ouverts de manière personnalisée. Le cadre proposé a été présenté dans un article publié le arXiv Le serveur de préimpression utilise des modèles de langage étendus (LLM) pour permettre aux robots de mieux répondre aux demandes des utilisateurs, par exemple pour localiser des objets spécifiques à proximité.
“Les travaux existants sur ZSON se concentrent principalement sur le suivi d’directions individuelles pour trouver des categories d’objets génériques, en négligeant l’utilisation de l’interplay en langage naturel et les complexités de l’identity d’objets spécifiques à l’utilisateur”, écrivent Yinpei Dai, Run Peng et leurs collègues dans leur article. “Pour remédier à ces obstacles, nous introduisons los angeles navigation d’objets interactifs 0-shot (ZIPON), dans laquelle les robots doivent naviguer vers des objets cibles personnalisés tout en engageant des conversations avec les utilisateurs.”
Dans leur article, Dai, Peng et leurs collaborateurs présentent d’abord une nouvelle project qu’ils appellent ZIPON. Cette tâche est une forme générale de ZSON, qui implique de répondre avec précision aux invitations assignées et de localiser des objets cibles spécifiques.
Si un système ZSON traditionnel nécessite de localiser un lit ou une chaise à proximité, ZIPON va encore plus loin en demandant au robotic de localiser le lit d’une personne spécifique, une chaise achetée sur Amazon, and so forth. Les chercheurs ont ensuite tenté de développer un cadre informatique succesful de résoudre efficacement cette query.
“Pour résoudre le problème ZIPON, nous proposons un nouveau cadre appelé Open Global Interactive Private Navigation (ORION), qui utilise de grands modèles de langage (LLM) pour prendre des décisions séquentielles afin de gérer différents modules de belief, de navigation et de verbal exchange.” » ont écrit mes collègues dans leur article.
Le nouveau framework développé par cette équipe de chercheurs contient six modules principaux : contrôle, carte sémantique, détection de vocabulaire ouvert, exploration, mémoire et module d’interplay. Le contrôleur permet au robotic de se déplacer dans son environnement, le module de carte sémantique indexe le langage naturel et le module de détection de vocabulaire ouvert permet au robotic de détecter des objets sur los angeles base de descriptions basées sur le langage.
Les robots recherchent ensuite des objets dans leur environnement à l’aide du module d’exploration, tout en stockant les informations importantes et les commentaires des utilisateurs dans le module mémoire. Enfin, le module d’interplay permet aux robots de parler aux utilisateurs et de répondre verbalement à leurs demandes.
Dai, Peng et leurs collègues ont évalué le cadre proposé dans des simulations et des expériences réelles, en utilisant TIAGo, un robotic cellular doté de roues et de bras. Leurs résultats étaient prometteurs, automotive leur cadre a amélioré avec succès los angeles capacité du robotic à exploiter les commentaires des utilisateurs lorsqu’ils tentent de localiser des objets spécifiques à proximité.
“Les résultats expérimentaux montrent que les performances des brokers interactifs capables d’exploiter les commentaires des utilisateurs présentent une amélioration significative”, ont expliqué Dai, Peng et leurs collègues. “Cependant, trouver un bon équilibre entre l’exécution des tâches, l’efficacité de los angeles navigation et l’interplay reste un défi pour toutes les approches. Nous présentons également davantage de résultats sur l’affect de divers modèles de commentaires des utilisateurs sur les performances des brokers.”
Alors que le cadre ORION montre le potentiel d’améliorer los angeles navigation des robots personnels dans des environnements inconnus, l’équipe a également constaté qu’il est extrêmement difficile de garantir que les robots accomplissent leurs tâches, naviguent en douceur dans des environnements inconnus et interagissent bien avec les utilisateurs. À l’avenir, cette étude pourrait aider à développer de nouveaux modèles pour compléter los angeles project ZIPON, qui pourraient remédier à certaines des lacunes signalées du cadre proposé par l’équipe.
“Ce travail n’est que notre première étape dans l’exploration du MBA en navigation personnelle et présente plusieurs limites”, ont écrit Dai, Peng et leurs collègues dans leur article. “Par exemple, il ne s’adresse pas à des varieties de cibles plus larges, tels que les cibles d’photographs, ni aux interactions multimodales avec les utilisateurs du monde réel. Nos efforts futurs s’étendront sur ces dimensions pour améliorer l’adaptabilité et los angeles polyvalence des robots interactifs dans le monde humain. ”
Plus d’data:
Yinbei Dai et al., Pensez, agissez et demandez : navigation robotique interactive et personnalisée pour le monde ouvert, arXiv (2023). est ce que je: 10.48550/arxiv.2310.07968. arxiv.org/abs/2310.07968
arXiv
© 2023 Réseau ScienceX
los angeles quotation: Utilisation de grands modèles linguistiques pour permettre une navigation automatisée dans des mondes ouverts, interactifs et personnels (27 octobre 2023) Récupéré le 29 octobre 2023 sur
Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.