Une nouvelle étude révèle que des ensembles de données plus volumineux ne sont pas toujours meilleurs pour les modèles d’IA

Dessin schématique de l’évaluation de l. a. récidive. crédit: Communications naturelles (2023). est ce que je: 10.1038/s41467-023-42992-y

De ChatGPT à DALL-E, les algorithmes d’intelligence artificielle (IA) d’apprentissage profond sont appliqués à un nombre toujours croissant de domaines. Une nouvelle étude menée par des chercheurs en génie de l’Université de Toronto, publiée dans communications naturelles, Cela suggère que l’une des hypothèses fondamentales des modèles d’apprentissage profond – à savoir qu’ils nécessitent d’énormes quantités de données de formation – n’est peut-être pas aussi robuste qu’on le pensait auparavant.

Le professeur Jason Hatrick-Sempers et son équipe se concentrent sur l. a. conception de matériaux de nouvelle génération, depuis des catalyseurs qui transforment le carbone capturé en carburant jusqu’aux surfaces antiadhésives qui maintiennent les ailes des avions sans givre.

L’un des défis dans ce domaine réside dans l’énorme potentiel d’espace de recherche. Par exemple, l’Open Catalyst Venture contient plus de 200 hundreds of thousands de issues de données sur des catalyseurs potentiels, qui ne couvrent encore qu’une petite partie du vaste espace chimique qui pourrait cacher, par exemple, le bon catalyseur pour nous aider à lutter contre le changement climatique.

“Les modèles d’IA peuvent nous aider à rechercher efficacement cette zone et à restreindre nos choix aux familles de matériaux les plus prometteuses”, explique Hattrick-Sempers.

“Traditionnellement, une grande quantité de données est nécessaire pour former des modèles d’IA précis. Mais un ensemble de données comme celui du projet Open Catalyst est si volumineux qu’il a besoin de superordinateurs très puissants pour pouvoir le traiter. Il y a donc une query “Nous devons trouver un moyen” d’identifier des ensembles de données plus petits sur lesquels les personnes qui n’ont pas accès à d’énormes quantités de puissance de calcul peuvent entraîner leurs modèles.

Mais cela conduit à un deuxième défi : bon nombre des plus petits ensembles de données sur les matériaux actuellement disponibles ont été développés pour un domaine spécifique, par exemple l’amélioration des performances des électrodes de batterie.

Cela signifie qu’ils ont tendance à se regrouper autour de quelques constructions chimiques similaires à celles déjà utilisées aujourd’hui, manquant peut-être des possibilités qui pourraient être plus prometteuses, mais moins évidentes.

« Imaginez si vous vouliez construire un modèle pour prédire les notes finales des étudiants sur l. a. base des résultats des checks précédents », explique le Dr Kangming Li, chercheur postdoctoral dans le laboratoire de Hattrick Simpers. “Si vous l’entraînez uniquement sur des étudiants du Canada, il peut parfaitement fonctionner dans ce contexte, mais il risque de ne pas prédire avec précision les ratings des étudiants de France ou du Japon. C’est l. a. state of affairs à laquelle nous sommes confrontés dans le monde des matériaux.”

Une resolution conceivable pour relever les défis ci-dessus consiste à identifier des sous-ensembles de données à partir de très grands ensembles de données qui sont plus faciles à traiter, tout en conservant toute l. a. gamme d’informations et l. a. diversité présentes dans l’authentic.

Pour mieux comprendre remark les caractéristiques des ensembles de données affectent les modèles utilisés pour l. a. formation, Lee a conçu des méthodes pour identifier des sous-ensembles de données de haute qualité à partir d’ensembles de données sur les matériaux précédemment publiés, tels que JARVIS, The Fabrics Venture et l’Open Quantitative Fabrics Database (OQMD). ). Ensemble, ces bases de données contiennent des informations sur plus d’un million de ingredients différentes.

Lee a construit un modèle informatique qui prédisait les propriétés des matériaux et l’a entraîné de deux manières : l’une utilisait l’ensemble de données d’origine, mais l’autre utilisait un sous-ensemble des mêmes données qui était environ 95 % plus petit.

« Ce que nous avons découvert, c’est qu’en essayant de prédire les propriétés d’un matériau appartenant au domaine de l’ensemble de données, un modèle formé sur seulement 5 % des données fonctionnait presque aussi bien qu’un modèle formé sur l’ensemble des données. données », dit Lee. “À l’inverse, lorsque nous essayons de prédire les propriétés des matériaux qui se situent en dehors de l. a. plage de l’ensemble de données, les deux résultats sont tout aussi médiocres.”

Lee affirme que les résultats suggèrent un moyen de mesurer le degré de redondance dans un ensemble de données donné : si davantage de données n’améliorent pas les performances d’un modèle, cela pourrait indiquer que ces données supplémentaires sont redondantes et ne fournissent pas de nouvelles informations aux modèles. apprendre.

“Nos résultats révèlent également un degré inquiétant de redondance caché dans de vastes ensembles de données hautement souhaitables”, explique Lee.

L’étude souligne également ce que les professionals en IA de nombreux domaines ont constaté : que même les modèles formés sur des ensembles de données relativement petits peuvent fonctionner correctement si les données sont de qualité suffisamment élevée.

“Tout cela vient du fait que nous commençons tout juste à utiliser l’IA pour accélérer l. a. découverte de matériaux”, explique Hattrick-Simpers.

“Ce que cela suggère, c’est qu’à mesure que nous avançons, nous devons vraiment réfléchir à l. a. manière dont nous construisons nos ensembles de données. Cela est vrai que cela soit fait de haut en bas, comme lors de l. a. sélection d’un sous-ensemble de données à partir d’un ensemble de données beaucoup plus vaste”. ou depuis le bas. » Vers le haut, comme pour échantillonner du nouveau matériel à inclure.

« Nous devons prêter consideration à l. a. richesse des informations, plutôt que de simplement collecter autant de données que conceivable. »

Plus d’knowledge:
Kangming Li et al., Exploiter l. a. redondance dans les grands ensembles de données de matériaux pour un apprentissage automatique efficace avec moins de données, Communications naturelles (2023). est ce que je: 10.1038/s41467-023-42992-y

Fourni par l’Université de Toronto

l. a. quotation: Une nouvelle étude révèle que des ensembles de données plus volumineux ne sont pas toujours meilleurs pour les modèles d’IA (13 novembre 2023) Récupéré le 13 novembre 2023 sur

Ce record est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.