Les chercheurs préviennent que nous pourrions manquer de données pour entraîner l’IA d’ici 2026. Et alors ?

Crédit : Pixabay/CC0 Domaine public

Alors que l’intelligence artificielle (IA) atteint le sommet de sa popularité, les chercheurs ont averti que l’industrie pourrait manquer de données de formation – le carburant qui fait fonctionner les puissants systèmes d’IA. Cela pourrait ralentir l. a. croissance des modèles d’IA, en particulier des grands modèles de langage, et pourrait changer le cours de l. a. révolution de l’IA.

Mais pourquoi le manque potentiel de données pose-t-il un problème, compte tenu de l. a. quantité de données disponibles sur Web ? Existe-t-il un moyen de gérer le risque ?

Pourquoi des données de haute qualité sont-elles importantes pour l’IA ?

Nous avons besoin de beaucoup de données pour former des algorithmes d’IA robustes, précis et de haute qualité. Par exemple, ChatGPT a été formé sur 570 gigaoctets de données texte, soit environ 300 milliards de mots.

De même, l’algorithme de diffusion solid (à l’origine de nombreuses packages d’IA génératrices d’pictures telles que DALL-E, Lensa et Midjourney) a été formé sur l’ensemble de données LIAON-5B composé de 5,8 milliards de paires image-texte. Si l’algorithme est entraîné sur une quantité insuffisante de données, il produira un résultat inexact ou de mauvaise qualité.

L. a. qualité des données de formation est également importante. Les données de mauvaise qualité, telles que les publications sur les réseaux sociaux ou les photographies floues, sont faciles à obtenir, mais elles ne suffisent pas pour former des modèles d’IA hautes performances.

Le texte des plateformes de médias sociaux peut être biaisé ou biaisé, ou contenir des informations trompeuses ou du contenu illégal que le modèle peut reproduire. Par exemple, lorsque Microsoft a essayé de former son robotic IA à l’aide du contenu de Twitter, il a appris à produire des résultats racistes et misogynes.

C’est pourquoi les développeurs d’IA recherchent du contenu de haute qualité, tel que des textes de livres, des articles en ligne, des articles scientifiques, Wikipédia et certains contenus Internet filtrés. Google Assistant a été formé sur 11 000 romans d’amour tirés du web site d’auto-édition Smashwords pour le rendre plus conversationnel.

Avons-nous suffisamment de données ?

L’industrie de l’IA forme les systèmes d’IA sur des ensembles de données plus volumineux que jamais, c’est pourquoi nous disposons désormais de modèles hautes performances comme ChatGPT ou DALL-E 3. Dans le même temps, les recherches montrent que les shares de données en ligne croissent beaucoup plus lentement. que les ensembles de données. Former l’intelligence artificielle.

Dans un article publié l’année dernière, un groupe de chercheurs prédit que nous manquerons de données textuelles de haute qualité avant 2026 si les tendances actuelles en matière de formation à l’IA se poursuivent. Ils estiment également que les données linguistiques de faible qualité seront épuisées entre 2030 et 2050, et les données d’pictures de faible qualité entre 2030 et 2060.

L’IA pourrait contribuer jusqu’à 15 700 milliards de greenbacks américains (24 100 milliards de greenbacks australiens) à l’économie mondiale d’ici 2030, selon le groupe de comptabilité et de conseil PwC. Mais manquer de données utilisables pourrait ralentir son développement.

Faut-il s’inquiéter ?

Bien que les issues ci-dessus puissent inquiéter certains lovers d’IA, l. a. scenario n’est peut-être pas aussi grave qu’il y paraît. Il existe de nombreuses inconnues sur l. a. façon dont les modèles d’IA évolueront à l’avenir, ainsi que sur les moyens de faire face aux risques de pénurie de données.

Une opportunité pour les développeurs d’IA est d’améliorer les algorithmes afin qu’ils puissent utiliser plus efficacement les données dont ils disposent déjà.

Dans les années à venir, ils seront probablement en mesure de former des systèmes d’IA hautes performances en utilisant moins de données et peut-être moins de puissance de calcul. Cela contribuerait également à réduire l’empreinte carbone de l’IA.

Une autre possibility consiste à utiliser l’intelligence artificielle pour créer des données synthétiques afin de former les systèmes. En d’autres termes, les développeurs peuvent simplement créer les données dont ils ont besoin et les formater pour les adapter à leur modèle d’IA.

De nombreux projets utilisent déjà du contenu synthétique, souvent provenant de services and products de génération de données comme Most commonly AI. Cela deviendra plus courant à l’avenir.

Les développeurs recherchent également du contenu en dehors de l’espace gratuit en ligne, comme le contenu détenu par les principaux éditeurs et les référentiels hors ligne. Pensez aux tens of millions de textes publiés avant Web. S’ils deviennent disponibles sous forme numérique, ils pourraient constituer une nouvelle supply de données pour les projets d’IA.

Information Corp, l’un des plus grands propriétaires mondiaux de contenu d’actualité (dont une grande partie de son contenu est derrière un paywall), a récemment déclaré qu’il négociait des accords de contenu avec des développeurs d’IA. De tels accords obligeraient les entreprises d’IA à payer pour les données de formation, alors que jusqu’à présent, elles les retiraient pour l. a. plupart gratuitement d’Web.

Les créateurs de contenu ont protesté contre l’utilisation non autorisée de leur contenu pour former des modèles d’IA, certains poursuivant en justice des sociétés comme Microsoft, OpenAI et Balance AI. Être payé pour leur travail peut contribuer à rétablir une partie du déséquilibre de pouvoir qui existe entre les créateurs et les entreprises d’IA.

Creation à l. a. dialog

Cet article est republié à partir de The Dialog sous une licence Ingenious Commons. Lisez l’article authentic.

l. a. quotation: Les chercheurs préviennent que nous pourrions manquer de données pour entraîner l’IA d’ici 2026. Et alors ? (8 novembre 2023) Récupéré le 8 novembre 2023 sur

Ce record est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.