Les progrès de l’intelligence artificielle et des puces améliorent l. a. reconnaissance vocale

Puce AI analogique de 14 nm dans l. a. major du chercheur. Crédit : Ryan Lavin pour IBM

Des avancées distinctes dans l. a. technologie de reconnaissance vocale d’IBM et de l’Université de Californie à San Francisco et Berkeley offrent des nouvelles prometteuses pour les sufferers souffrant de paralysie vocale et de perte de l. a. parole.

IBM a annoncé l. a. création d’une puce informatique plus rapide et plus économe en énergie, succesful de produire un modèle de reconnaissance vocale suralimenté.

Avec l. a. croissance exponentielle des grands modèles de langage pour les projets d’IA, des boundaries de performances matérielles sont apparues, entraînant des temps de formation plus longs et une consommation d’énergie accrue.

Concernant les dépenses énergétiques, le MIT Generation Evaluation a récemment rapporté que l. a. formation d’un seul modèle d’IA génère plus de 626 000 livres de dioxyde de carbone, soit près de cinq fois l. a. quantité qu’une voiture américaine moyenne émet au cours de sa durée de vie.

L’un des principaux facteurs à l’origine de l. a. fuite huge d’énergie des opérations d’IA est l’échange de données entre l. a. mémoire et les processeurs.

Les chercheurs d’IBM à l. a. recherche d’une answer affirment que leur prototype inclut du matériel de mémoire à changement de section à l’intérieur de l. a. puce, améliorant ainsi les opérations de base de l’IA connues sous le nom d’opérations de multiplication et d’accrétion (MAC), qui accélèrent considérablement l’activité de l. a. puce. Cela contourne l. a. regimen usual, consommatrice de temps et d’énergie, de transfert de données entre l. a. mémoire et le processeur.

“Il s’agit, à notre connaissance, des premières démonstrations de niveaux de précision commercialement pertinents sur un modèle commercialement pertinent”, a déclaré Stefano Ambroggia d’IBM dans une étude publiée en ligne le 23 août. nature revue.

Puce AI analogique 14 nm sur l. a. carte de take a look at. Crédit : Ryan Lavin pour IBM

“Nos travaux indiquent que, combinés à l. a. mise en œuvre efficace en termes de temps, d’espace et d’énergie de l’informatique d’help sur puce, l’efficacité énergétique et le débit élevés fournis… peuvent être étendus à l’ensemble du système d’IA analogique”, a-t-il déclaré.

En matière de reconnaissance vocale gourmande en processeur, le prototype d’IBM a réalisé 12 400 milliards d’opérations par seconde et par watt, un niveau d’efficacité des centaines de fois supérieur à celui des processeurs et GPU les plus puissants actuellement utilisés.

Parallèlement, des chercheurs de l’Université de Californie à San Francisco et de l’Université de Californie à Berkeley affirment avoir créé une interface cerveau-ordinateur pour les personnes ayant perdu l. a. capacité de parler, qui génère des mots à partir des pensées et des efforts de parole de l’utilisateur.

“Notre objectif est de restaurer une manière de communiquer complète et incarnée, qui est l. a. manière l. a. plus naturelle pour nous de parler aux autres”, a déclaré Edward Chang, président du département de neurochirurgie de l’Université de Californie à San Francisco.

Zhang et son équipe ont implanté deux minuscules capteurs à l. a. floor du cerveau d’une femme atteinte de sclérose latérale amyotrophique, une maladie neurologique qui prive progressivement ses victimes de l. a. capacité de bouger et de parler.

Bien que l. a. patiente soit toujours succesful de produire des sons, l. a. SLA a restreint l’utilisation de ses lèvres, de sa langue et de son larynx pour produire des mots cohérents.

Les capteurs étaient reliés by the use of une interface cerveau-ordinateur à des banques d’ordinateurs contenant un logiciel de décodage du langage.

Plaquette de 300 mm utilisée pour fabriquer des puces IA analogiques. Crédit : Ryan Lavin pour IBM

L. a. femme a suivi 25 séances de formation, chacune d’une durée de quatre heures, au cours desquelles elle a lu des groupes de 260 à 480 words. Son activité cérébrale pendant les lectures était interprétée par un décodeur, qui détectait les phonèmes et les assemblait en mots.

Les chercheurs ont ensuite reconstitué son discours, sur l. a. base d’un enregistrement de son discours lors d’un mariage il y a des années, et ont conçu un avatar qui reflétait les mouvements de son visage.

Les résultats étaient prometteurs.

Après quatre mois de formation, le modèle était succesful de suivre les tentatives de parole d’une personne et de les convertir en mots intelligibles.

Sur l. a. base d’un vocabulaire de formation de 125 000 mots, qui couvre presque tout ce qu’une personne veut dire, le taux d’exactitude était de 76 %.

Lorsque le vocabulaire était limité à 50 mots, le système de traduction fonctionnait bien mieux, identifiant correctement son discours dans 90 % du temps.

De plus, le système était succesful de traduire le discours d’une personne à une vitesse de 62 mots par minute. Bien que le taux de reconnaissance des mots soit trois fois supérieur à celui obtenu lors d’expériences similaires précédentes, les chercheurs se rendent compte que des améliorations sont nécessaires pour atteindre le taux de parole customary de 160 mots par minute.

“Il s’agit d’une preuve de thought scientifique, pas d’un véritable appareil que les gens peuvent utiliser dans l. a. vie de tous les jours”, a déclaré Frank Willett, co-auteur de l’étude publiée le 23 août. nature. “Mais c’est une avancée majeure vers le rétablissement d’une conversation rapide pour les personnes paralysées qui ne peuvent pas parler.”

Plus d’data:
S. Ambrogio et al., Puce AI analogique pour l. a. reconnaissance et l. a. transcription vocales économes en énergie, nature (2023). est ce que je: 10.1038/s41586-023-06337-5

Hechen Wang, l. a. puce analogique ouvre l. a. voie à une intelligence artificielle sturdy nature (2023). est ce que je: 10.1038/d41586-023-02569-7

© 2023 Réseau ScienceX

l. a. quotation: Advances in Synthetic Intelligence, Chips Spice up Voice Popularity (28 août 2023) Récupéré le 1er novembre 2023 sur

Ce record est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.