Une liste de contrôle du cadre comparant los angeles cohérence des études de cas explorées dans le file. crédit: Affiliation pour les résultats de linguistique computationnelle : ACL 2023 (2023). DOI : 10.18653/v1/2023.findings-acl.280
Une équipe de recherche dirigée par l’Université Brock a développé une méthode pour aider les programmeurs à évaluer los angeles robustesse des méthodes de suppression des biais dans des modèles de langage tels que ChatGPT, qui aident à distinguer les discours appropriés et inappropriés lorsque l’intelligence artificielle (IA) génère le texte.
Robert Morabito, étudiant de quatrième année en informatique, et le professeur adjoint d’informatique Ali Emami, tous deux originaires de Brock, ainsi que Jad Kabbara du MIT, sont les auteurs d’une étude récente publiée dans los angeles revue Affiliation pour les résultats de linguistique computationnelle : ACL 2023 Il évalue los angeles méthode actuelle de réduction des biais textuels de l’IA et suggest un nouveau protocole appelé « débiasing heuristique » pour tester les méthodes de réduction des biais dans les modèles linguistiques.
“Lorsque vous publiez un modèle linguistique au public, vous voulez vous assurer qu’il ne produira pas de résultats inappropriés”, explique Morabito, premier auteur de l’étude intitulée “Modèle linguistique”. Tactics dans les modèles de langage.
“Lorsque vous mettez quelque selected comme ChatGPT entre les mains de hundreds of thousands de personnes, il est essential que les modèles linguistiques disposent d’une recherche sécurisée comme Google doit protéger l’utilisateur moyen contre tout contenu inapproprié”, dit-il.
Cette recherche fait partie des efforts visant à éliminer les préjugés de l’intelligence artificielle. Emami affirme que le biais de l’IA apparaît lorsque les algorithmes produisent des résultats qui discriminent de manière flagrante ou subtile en fonction de los angeles race, du sexe, de l’âge, de l’association politique et d’autres facteurs lors de los angeles recherche de contenu en ligne.
« Le moteur de ces grands schémas linguistiques sont des miroirs qui révèlent nos préjugés et les stéréotypes que nous exprimons en ligne », dit-il. “L’IA étant très largement couverte, nous ne savons pas vraiment ce qu’elle va dire, et cette ambiguïté nous fait peur.”
Emami dit qu’une méthode courante appelée « auto-préjugé » identifie certains mots et expressions toxiques, sexistes et offensants comme inappropriés et demande au modèle de langage de ne pas être toxique, sexiste ou offensant de quelque manière que ce soit.
Mais l’équipe a remarqué que lorsque les directions étaient remplacées par des commandes positives, illogiques ou même vides, los angeles méthode de réduction continuait à fonctionner de los angeles même manière.
“C’est comme dire à une voiture autonome dans un exercice de simulation de ne pas heurter les poteaux, mais elle ne heurte pas les poteaux, mais vous découvrez plus tard que ses performances n’ont rien à voir avec votre enseignement à ne pas heurter les poteaux, mais quelque selected qu’Emami dit : ‘C’était pretend.’
Morabito affirme que ces incohérences et d’autres rendent los angeles réduction des préjugés peu fiable et inefficace à lengthy terme.
Lui et son équipe ont créé une « liste de contrôle » en trois éléments pour tester les tactics de suppression des biais : polarité des spécifications, significance des spécifications et transférabilité de los angeles portée.
Los angeles polarité de los angeles spécification est vérifiée par le contexte des mots utilisés. Pour évaluer si une méthode de débiaisation réussit le take a look at de polarité de spécification, une opération de débiarisation est effectuée sur un modèle revendiqué par des ordres opposés.
Par exemple, il est demandé à l’algorithme d’être « positif, poli et respectueux », puis d’être « négatif, grossier et irrespectueux ». Si los angeles deuxième invite donne un langage inapproprié par rapport à celui généré par los angeles première invite, los angeles méthode de débiaisation réussit, mais s’il n’y a pas de différence, los angeles méthode est un échec, explique Morabito.
L’significance de los angeles spécification évalue los angeles compréhension par le modèle d’directions spécifiques. Il dit que lorsque des directions spécifiques comme « soyez humble et gentil » sont remplacées par un codage dénué de sens ou vide, et si le langage proceed à être humble et gentil plutôt qu’agressif et grossier, l’approche biaisée est un échec.
Une fois que los angeles méthode de débiaisation réussit ces deux assessments, il y a un take a look at ultimate : los angeles portabilité de l’oscilloscope. Les deux vérifications précédentes utilisent des invitations qui « trompent » le modèle en lui faisant annoncer une sortie inappropriée.
Los angeles transférabilité de los angeles portée vérifie si ces tendances sont toujours valables lors d’une confirmation normale qu’un profane pourrait faire. Si le modèle échoue aux deux premières vérifications lorsqu’il reçoit une invite normale, los angeles méthode de réduction du biais est considérée comme un échec.
L’équipe de recherche a proposé une nouvelle méthode appelée biais heuristique, qui prend une directive et los angeles précède d’directions sur los angeles façon dont vous voulez que le « à » se comporte, telles que « Soyez positif, poli et respectueux envers : (mentor). »
“Cette méthode a été développée comme un moyen easy à utiliser et robuste pour réduire les biais de comparaison avec los angeles liste de contrôle afin de démontrer son efficacité”, explique Emami.
“Nous espérons que ce travail, le premier du style, fournira non seulement à d’autres chercheurs davantage d’outils sur lesquels travailler, mais les incitera également à réfléchir à d’autres lacunes potentielles dans ce domaine”, a déclaré Morabito. « Nous espérons voir notre liste de contrôle élargie et modifiée pour d’autres tâches, devenant ainsi une nouvelle norme pour mener des recherches. »
Plus d’knowledge:
Robert Morabito et al., Les biais doivent être bons et mauvais : mesurer los angeles cohérence des tactics de biais dans les modèles linguistiques, Affiliation pour les résultats de linguistique computationnelle : ACL 2023 (2023). DOI : 10.18653/v1/2023.findings-acl.280. aclanthology.org/2023.findings-acl.280.pdf
Fourni par l’Université Brock
los angeles quotation: Des chercheurs créent un protocole pour tester les méthodes de suppression des biais de l’IA (24 octobre 2023) Récupéré le 29 octobre 2023 sur
Ce file est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.