Les robots apprennent plus vite grâce au spice up de l’IA d’Eureka

EUREKA crée des emplois enrichissants au niveau humain by the use of des robots et des tâches diverses. En combinaison avec le programme pédagogique, EUREKA ouvre pour los angeles première fois les possibilités de rotation rapide du stylo sur une major anthropomorphe à cinq doigts. crédit: arXiv (2023). DOI : 10.48550/arxiv.2310.12931

Les robots intelligents remodèlent notre monde. À l’hôpital universitaire Robert Wooden Johnson du New Jersey, les robots alimentés par l’IA offrent un nouveau niveau de sécurité aux médecins et aux sufferers en scannant chaque centimètre carré du bâtiment à los angeles recherche de bactéries et de virus nocifs et en les désinfectant avec des doses précises de lumière ultraviolette germicide.

Dans l’agriculture, des bras robotiques pilotés par des drones scannent différents varieties de end result et légumes et déterminent quand ils sont complètement mûrs pour los angeles cueillette.

L’Airspace Intelligence Gadget AI Flyways suppose les tâches difficiles et souvent stressantes des régulateurs de vol qui doivent apporter des changements de modèle de vol de dernière minute en raison de stipulations météorologiques extrêmes soudaines, d’un épuisement des réserves de carburant, de problèmes mécaniques ou d’autres urgences. Il améliore les answers, est plus sécurisé, permet de gagner du temps et est rentable.

Mais oubliez ces exploits : un robotic peut-il réaliser des excursions de stylo impeccables ?

Une équipe de NVIDIA Analysis en a développé un qui le peut. Bien que los angeles tâche soit impressionnante, certains professionals affirment que cela pourrait prendre des mois, voire un an, voire plus, pour maîtriser l’artwork du tournoiement des doigts, y compris des manipulations difficiles avec des noms comme Satan’s Sonic, Backaround, Corkscrew et Bust X2. Ce qui distingue le projet NVIDA, c’est que le processus de rotation du stylo a été enseigné grâce à des directions générées par l’intelligence artificielle.






Dans un article intitulé « Eureka : Designing Human-Scale Rewards by the use of Encoding Huge Language Fashions » qui apparaît sur le serveur de préimpression arXivLes chercheurs décrivent une « amélioration évolutive du code de récompense » dans laquelle les robots apprennent des mouvements de micromanipulation complexes grâce à des directions générées par l’IA.

Il promet de résoudre les problèmes plus efficacement que jamais grâce aux LLM, à une manipulation body plus avancée et à des machines plus intelligentes dans notre avenir.

L’équipe a développé Eureka, un algorithme implémenté sur GPT-4 qui crée un système de récompense pour les étudiants en LLM qui apprennent des fonctions motrices avancées. Les tâches sont effectuées dans une software de simulation body appelée Isaac Fitness center, développée par NVIDIA. Des chercheurs de l’UPenn, de Caltech et de l’Université du Texas à Austin ont également participé au projet.

Les résultats obtenus avec los angeles formation Eureka étaient supérieurs aux directions conçues par des humains dans 83 % des essais. L. a. tâche de rotation rapide du stylo était l’une des 29 compétences complexes entraînées avec l’algorithme Eureka.

« L. a. polyvalence et les positive factors de performances significatifs réalisés par Eureka suggèrent que le principe easy consistant à combiner de grands modèles de langage avec des algorithmes évolutifs constitue une approche générale et évolutive de los angeles conception de récompenses, une idée qui peut être plus généralement appropriate à des problèmes de recherche difficiles et ouverts. » Anima Anandkumar, directrice principale de los angeles recherche sur l’IA chez NVIDIA et auteur de l’article Eureka.

Isaac Fitness center simule l’activité body dans un environnement 3-d. Des periods de formation massivement parallèles génèrent des answers possibles à de nombreuses manipulations beaucoup plus rapidement que les humains ou les premiers systèmes informatiques ne le pourraient. Les chercheurs affirment que los angeles salle de recreation peut améliorer los angeles vitesse d’entraînement jusqu’à 1 000 fois.

Les commentaires des opérateurs humains peuvent être intégrés aux algorithmes de formation. Les chercheurs affirment que cela servirait de « copilote puissant » dans des missions particulièrement difficiles.

D’autres tâches accomplies grâce à los angeles formation Eureka comprennent l’ouverture d’armoires et de tiroirs, los angeles manipulation de ciseaux et le lancement et l’attrapage de balles.

Eureka collecte des statistiques de development pour chaque consultation et ajuste le code pour améliorer continuellement les résultats.

Selon Sheetal Shah, ingénieur de recherche essential chez Microsoft Analysis, « los angeles boucle de rétroaction sure proverbiale de l’auto-amélioration est peut-être à nos portes, nous permettant d’aller au-delà des données et des capacités de formation humaine. »

Plus d’knowledge:
Yicheng Jason Ma et al., Eureka : Concevoir des récompenses au niveau humain by the use of le codage de grands modèles de langage, arXiv (2023). DOI : 10.48550/arxiv.2310.12931

Web site Internet du projet : eureka-research.github.io/

Informations sur les magazines :
arXiv

© 2023 Réseau ScienceX

los angeles quotation: Les robots apprennent plus rapidement grâce au spice up de l’IA d’Eureka (24 octobre 2023) Récupéré le 31 octobre 2023 sur

Ce file est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.