De nouvelles ways accélèrent efficacement les tenseurs clairsemés pour les grands modèles d’IA

Des chercheurs du MIT et de NVIDIA ont développé deux applied sciences complémentaires qui pourraient augmenter considérablement los angeles vitesse et les performances des packages de calcul haute efficiency telles que l’analyse graphique ou l’intelligence artificielle générative. Les deux nouvelles méthodes cherchent à exploiter efficacement los angeles parcimonie – les valeurs nulles – des tenseurs. Crédit : Symbol : José Luis Olivares, MIT

Des chercheurs du MIT et de NVIDIA ont développé deux ways pour accélérer le traitement du tenseur clairsemé, un sort de construction de données utilisé pour les tâches de calcul hautes performances. Des applied sciences complémentaires peuvent conduire à des améliorations significatives des performances et de l’efficacité énergétique des systèmes tels que les modèles massifs d’apprentissage automatique qui pilotent l’intelligence artificielle générative.

Les tenseurs sont des buildings de données utilisées par les modèles d’apprentissage automatique. Les deux nouvelles méthodes cherchent à exploiter efficacement ce que l’on appelle los angeles parcimonie – les valeurs nulles – dans les tenseurs. Lors de los angeles manipulation de ces tenseurs, on peut ignorer les zéros et économiser à los angeles fois le calcul et los angeles mémoire. Par exemple, tout ce qui est multiplié par zéro est égal à zéro, il peut donc ignorer ce processus. Il peut compresser le tenseur (pas besoin de stocker des zéros) afin qu’une plus grande partie puisse être stockée dans los angeles mémoire sur puce.

Cependant, l’exploitation de los angeles parcimonie présente plusieurs défis. Trouver des valeurs non nulles dans un grand tenseur n’est pas une tâche facile. Les méthodes existantes limitent souvent les emplacements des valeurs non nulles en imposant un modèle clairsemé pour simplifier los angeles recherche, mais cela limite los angeles variété de tenseurs clairsemés qui peuvent être traités efficacement.

Un autre défi est que le nombre de valeurs non nulles peut varier selon les différentes régions du tenseur. Cela rend difficile los angeles détermination de los angeles quantité d’espace nécessaire pour stocker les différentes zones de mémoire. Pour garantir l’adéquation de los angeles zone, plus d’espace est souvent alloué que nécessaire, ce qui entraîne une sous-utilisation de los angeles zone tampon de stockage. Cela entraîne une augmentation du trafic mémoire hors puce, ce qui nécessite des calculs supplémentaires.

Les chercheurs du MIT et de NVIDIA ont formulé deux answers pour résoudre ces problèmes. Premièrement, ils ont développé une methodology qui permet aux machines de trouver efficacement des valeurs non nulles pour une massive gamme de modèles de diffusion.

Pour l’autre answer, ils ont créé une méthode succesful de gérer le cas où les données ne tiennent pas en mémoire, augmentant ainsi l’utilisation du tampon de stockage et réduisant le trafic mémoire hors puce.

Les deux méthodes améliorent les performances et réduisent les besoins en énergie des accélérateurs matériels spécialement conçus pour accélérer le traitement des tenseurs clairsemés. Les papiers ont été envoyés à arXiv Serveur d’affect avancé.

“En règle générale, lorsque vous utilisez des accélérateurs matériels plus spécialisés ou spécifiques à un domaine, vous perdez los angeles flexibilité que vous obtiendriez d’un processeur plus général, comme un CPU. Ce qui ressort de ces deux travaux, c’est que nous montrons que vous pouvez toujours Génie électrique et informatique (EECS) du Massachusetts Institute of Generation (MIT), membre du Laboratoire de recherche en électronique (RLE) et co-auteur essential des articles « Restez versatile et adaptable tout en étant spécialisé et efficace ». sur les deux avancées.

Ses co-auteurs incluent les auteurs principaux Yanan Nili Wu, Ph.D. ’23 et Ziyu Xue, étudiant diplômé en génie électrique et informatique ; Co-auteur essential Joel Emmer, professeur d’informatique et de génie électrique au MIT et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL), ainsi que d’autres chez NVIDIA. Les deux articles seront présentés au Symposium global IEEE/ACM sur los angeles microarchitecture.

Level citadel : trouver efficacement les valeurs nulles

Des éclaboussures dans le tendeur peuvent survenir pour plusieurs raisons. Par exemple, les chercheurs « élaguent » parfois les events inutiles des modèles d’apprentissage automatique en remplaçant certaines valeurs du tenseur par des zéros, ce qui conduit à une parcimonie. Le degré de parcimonie (pourcentage de zéros) et l’emplacement des zéros peuvent varier d’un modèle à l’autre.

Pour faciliter los angeles recherche des valeurs non nulles restantes dans un modèle contenant des milliards de valeurs individuelles, les chercheurs contraignent souvent l’emplacement des valeurs non nulles afin qu’elles correspondent à un modèle particulier. Cependant, chaque accélérateur matériel est généralement conçu pour prendre en price un modèle clairsemé spécifique, ce qui limite sa flexibilité.

En revanche, un accélérateur matériel conçu par des chercheurs du MIT, appelé HighLight, peut gérer un massive éventail de modèles clairsemés tout en restant performant lors de l’exécution de modèles ne contenant aucune valeur nulle.

Ils utilisent une methodology qu’ils appellent « parcimonie structurée hiérarchique » pour représenter efficacement un massive éventail de modèles de diffusion constitués de plusieurs modèles clairsemés simples. Cette approche divise les valeurs du tenseur en blocs plus petits, où chaque bloc a son propre motif clairsemé easy (peut-être deux zéros et deux non nuls dans un bloc à quatre valeurs).

Ensuite, ils combinent les blocs dans une hiérarchie, où chaque ensemble de blocs possède également son propre modèle clairsemé easy (peut-être un bloc nul et trois blocs non nuls dans un niveau de quatre blocs). Ils continuent de combiner des blocs en niveaux plus grands, mais les modèles restent simples à chaque étape.

Cette simplicité permet à HighLight de rechercher et de sauter les zéros plus efficacement, afin que vous puissiez profiter pleinement de l’opportunité de réduire les calculs redondants. En moyenne, los angeles conception de leur accélérateur était environ six fois plus économe en énergie que les autres approches.

“En fin de compte, l’accélérateur HighLight est succesful d’accélérer efficacement les modèles denses automotive il ne provoque pas beaucoup de frais généraux, et en même temps, il est succesful d’exploiter des fees de travail avec différentes quantités de valeurs nulles en fonction de los angeles variance structurelle hiérarchique”, a-t-il déclaré. explique.

À l’avenir, elle et ses collaborateurs souhaitent appliquer une variation structurelle hiérarchique à davantage de varieties de modèles d’apprentissage automatique et à différents varieties de tenseurs dans les modèles.

Tailors et Swiftiles : surréservation efficace pour accélérer les fees de travail

Les chercheurs peuvent également profiter de los angeles rareté pour déplacer et traiter les données plus efficacement sur une puce informatique.

Étant donné que les tenseurs sont souvent plus grands que ce qui peut être stocké dans los angeles mémoire tampon de los angeles puce, los angeles puce ne seize et ne traite qu’une partie du tenseur à los angeles fois. Les pièces sont appelées tuiles.

Pour maximiser l’utilisation de ce tampon et limiter le nombre de fois où los angeles puce doit accéder à los angeles mémoire hors puce, qui domine souvent los angeles consommation d’énergie et limite los angeles vitesse de traitement, les chercheurs visent à utiliser los angeles plus grande dalle pouvant tenir dans le tampon.

Mais dans un tenseur clairsemé, de nombreuses valeurs de données sont nulles, de sorte qu’une plus grande taille peut tenir dans le tampon que ce à quoi on pourrait s’attendre en fonction de sa capacité. Les valeurs nulles n’ont pas besoin d’être stockées.

Mais le nombre de valeurs nulles peut varier selon les différentes régions du tenseur, il peut donc également varier pour chaque carré. Il est donc difficile de déterminer quelle taille de carreau tiendra dans le tampon. En conséquence, les méthodes existantes supposent souvent qu’il n’y a pas de zéros et finissent par choisir un carré plus petit, gaspillant ainsi de l’espace vide dans los angeles mémoire tampon.

Pour répondre à cette incertitude, les chercheurs proposent d’utiliser le « surbooking » pour leur permettre d’augmenter los angeles taille des tuiles, ainsi qu’un moyen de tolérer si une tuile ne rentre pas dans le tampon.

De los angeles même manière qu’une compagnie aérienne surbooke des billets pour un vol, si tous les passagers se présentent, los angeles compagnie aérienne doit indemniser les personnes renversées de l’avion. Mais généralement, tous les passagers ne sont pas présents.

Dans un tenseur clairsemé, los angeles taille des tuiles peut être choisie de telle sorte que les tuiles contiennent généralement suffisamment de zéros pour que los angeles plupart d’entre eux tiennent toujours dans le tampon. Mais parfois, une tuile air of mystery plus de valeurs non nulles qu’elle n’en contient. Dans ce cas, ces données sont sorties du tampon.

Les chercheurs permettent aux appareils de récupérer uniquement les données entrées en collision sans récupérer los angeles boîte entière et los angeles traiter à nouveau. Ils modifient le “back-end” du tampon pour gérer cela, d’où le nom de cette methodology, los angeles personnalisation.

Ensuite, ils ont également créé un moyen de trouver los angeles taille de tuile qui bénéficie de los angeles surréservation. Cette méthode, appelée Swiftiles, estime rapidement los angeles taille idéale des tuiles afin qu’un sure pourcentage de tuiles, défini par l’utilisateur, soit surbooké. (Les noms “Tailors” et “Swiftiles” rendent hommage à Taylor Swift, dont los angeles récente tournée Eras était remplie de codes de prévente pour les billets en surréservation.)

Swiftiles réduit le nombre de fois où los angeles system doit vérifier le tendeur pour déterminer los angeles taille idéale des carreaux, économisant ainsi les calculs. L. a. combinaison de Tailors et Swiftiles double los angeles vitesse tout en ne nécessitant que los angeles moitié des besoins en énergie des accélérateurs matériels existants qui ne peuvent pas gérer los angeles surréservation.

“Swiftiles nous permet d’estimer los angeles taille de ces carrés sans avoir besoin de plusieurs itérations pour affiner l’estimation. Cela ne fonctionne que parce que los angeles surréservation est prise en price. Même si vous vous écartez d’un montant décent, vous pouvez toujours extraire une bonne quantité d’accélération automotive c’est lent”, dit Xue. “Sur los angeles façon dont les zéros sont distribués.”

À l’avenir, les chercheurs souhaitent appliquer l’idée de surréservation à d’autres sides de l’structure informatique et travailler également à l’amélioration du processus d’estimation du niveau optimum de surréservation.

Plus d’data:
Ziyu arXiv (2023). DOI : 10.48550/arxiv.2310.00192

Yannan Nili Wu et al., HighLight : accélération DNN efficace et versatile avec parcimonie régularisée hiérarchique, arXiv (2023). est ce que je: 10.48550/arxiv.2305.12718

Informations sur les magazines :
arXiv

Fourni par le MIT

los angeles quotation: Nouvelles ways qui accélèrent efficacement les tenseurs clairsemés pour les grands modèles d’IA (30 octobre 2023) Récupéré le 30 octobre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.