Crédit : CC0 domaine public
Les grands modèles linguistiques (LLM) comme ChatGPT et Bard ont pris d’assaut le monde cette année, les entreprises investissant des hundreds of thousands pour développer ces outils d’IA, et certains des principaux chatbots d’IA étant évalués en milliards.
Ces robots LLM, de plus en plus utilisés dans les chatbots basés sur l’IA, collectent l’intégralité d’Web à des fins d’apprentissage et pour informer les réponses qu’ils fournissent aux demandes spécifiées par l’utilisateur, appelées « invitations ».
Cependant, les informaticiens de Mindgard, une start-up spécialisée dans los angeles sécurité de l’IA, et de l’Université de Lancaster au Royaume-Uni ont démontré que certaines events de ces cours pouvaient être reproduites en moins d’une semaine pour seulement 50 greenbacks, et que les informations obtenues pouvaient être utilisées pour lancer des attaques ciblées. .
Les chercheurs préviennent que les attaquants qui exploitent ces vulnérabilités pourraient révéler des informations confidentielles privées, contourner les barrières de sécurité, fournir des réponses incorrectes ou lancer des attaques plus ciblées.
Détaillés dans un nouvel article qui sera présenté à CAMLIS 2023 (Conférence sur l’apprentissage automatique appliqué pour los angeles sécurité de l’data), les chercheurs montrent qu’il est conceivable de copier à moindre coût des sides importants des LLM existants, et ont également montré des preuves du transfert de vulnérabilités entre différents des modèles.
Cette attaque, appelée « détournement de modèle », fonctionne en s’adressant aux étudiants en LLM de cette manière – en leur demandant un ensemble d’invitations ciblées – afin que les étudiants en LLM extraient des informations pertinentes et révèlent le fonctionnement du modèle.
L’équipe de recherche, qui a concentré son étude sur ChatGPT-3.5-Turbo, a utilisé ces connaissances pour créer son propre modèle de réplication, qui était 100 fois plus petit mais reproduisait les sides clés du LLM.
Les chercheurs ont ensuite pu utiliser cette maquette comme terrain d’essai pour apprendre à exploiter les vulnérabilités de ChatGPT sans être détectés. Ils ont ensuite pu utiliser les connaissances de leur modèle pour attaquer les vulnérabilités de ChatGPT avec un taux de réussite accru de 11 %.
Le Dr Peter Garraghan de l’Université de Lancaster, PDG de Mindgard et chercheur main de los angeles recherche, a déclaré : “Ce que nous avons découvert est scientifiquement fascinant, mais profondément inquiétant. Il s’agit de l’un des premiers travaux à démontrer empiriquement que les vulnérabilités peuvent être transférées avec succès entre des systèmes ouverts”. modèles d’apprentissage automatique supply. ” ” Et supply fermée, ce qui est très préoccupant étant donné à quel level l’industrie s’appuie sur des modèles d’apprentissage automatique accessibles au public et hébergés dans des endroits comme HuggingFace.
Les chercheurs affirment que leurs travaux mettent en évidence que, même si ces puissantes applied sciences d’IA numérique ont des utilisations évidentes, il existe des faiblesses cachées, et il peut y avoir des faiblesses partagées entre les modèles.
Les entreprises du secteur investissent actuellement ou se préparent à investir des milliards dans los angeles création de leurs propres MBA pour effectuer un massive éventail de tâches telles que les assistants intelligents. Les products and services financiers et les grandes entreprises adoptent ces applied sciences, mais les chercheurs affirment que ces vulnérabilités devraient constituer une préoccupation majeure pour toutes les entreprises qui envisagent de créer ou d’utiliser des LLM tiers.
« Bien que los angeles technologie LLM puisse être transformatrice, les entreprises et les scientifiques doivent réfléchir très attentivement à los angeles compréhension et à los angeles mesure des cyber-risques associés à l’adoption et au déploiement des LLM », a déclaré le Dr Garraghan.
Fourni par l’Université de Lancaster
los angeles quotation: Des chercheurs en IA révèlent des faiblesses evaluations dans les principaux modèles de langage (12 octobre 2023) Récupéré le 1er novembre 2023 sur
Ce file est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.