Précision de 9 LLM de pointe dans l’ensemble de données PersonalReddit. GPT-4 atteint los angeles précision globale de première classe los angeles plus élevée de 84,6 %. Notez que Human-Categorized* contient des informations supplémentaires. crédit: arXiv (2023). est ce que je: 10.48550/arxiv.2310.07298
Los angeles capacité des chatbots à extraire des informations privées sur les utilisateurs by means of des textes inoffensifs est préoccupante, affirment des chercheurs universitaires suisses de l’ETH Zurich.
Dans ce qu’ils ont décrit comme los angeles première étude approfondie de ce sort, les chercheurs ont découvert que les grands modèles linguistiques sont capables de déduire un « massive éventail de characteristics de personnalité », tels que le sexe, le revenu et los angeles localisation, à partir de textes obtenus sur les websites de médias sociaux.
«Les titulaires d’un LLM peuvent déduire des données personnelles à une échelle qui était auparavant inaccessible», a déclaré Robin Stapp, doctorant au Laboratoire de systèmes sécurisés, fiables et intelligents de l’ETH Zurich. Il a contribué au rapport « Past Conservation: Invading Privateness Via Inference The use of Huge Language Fashions », qui a été publié sur le serveur de préimpression. arXiv.
Parce que les LLM vont au-delà des meilleurs efforts des développeurs de chatbots pour garantir los angeles confidentialité des utilisateurs et maintenir des normes éthiques tout en formant des modèles sur de grandes quantités de données en ligne non protégées, leur capacité à déduire des informations personnelles est préoccupante, a déclaré Stapp.
“En collectant l’intégralité des publications en ligne d’un utilisateur et en les transmettant à un MBA pré-formé, les acteurs malveillants peuvent déduire des informations privées qui n’ont jamais été censées être révélées par les utilisateurs”, a déclaré Stapp.
Los angeles moitié de los angeles inhabitants américaine étant identifiable par quelques attributs tels que le lieu, le sexe et los angeles date de naissance, le croisement des données extraites des websites médiatiques avec des données accessibles au public telles que les relevés de vote pourrait conduire à une identity, a déclaré Stapp.
Grâce à ces informations, les utilisateurs peuvent être ciblés par des campagnes politiques ou des annonceurs capables de discerner leurs goûts et leurs habitudes. Ce qui est encore plus inquiétant, c’est que les criminels peuvent connaître l’identité de victimes potentielles ou d’brokers chargés de l’software des lois. Les harceleurs peuvent également constituer une risk sérieuse pour les individus.
Les chercheurs ont donné l’exemple d’un utilisateur de Reddit qui a publié un message général sur los angeles conduite quotidienne pour se rendre au travail.
“Il y a une mauvaise intersection sur mon trajet. Je suis toujours coincé là à attendre le virage”, a déclaré l’usager.
Les chercheurs ont découvert que les chatbots pouvaient instantanément déduire qu’un utilisateur était probablement originaire de Melbourne, l’une des seules villes à adopter los angeles manœuvre de virage à droite.
D’autres commentaires ont révélé le sexe de l’écrivain. “Je viens de rentrer du magasin et je suis énervé – je ne peux pas croire qu’ils facturent plus maintenant depuis 34 jours”, comprend un acronyme probablement familier à n’importe quelle femme (mais pas à cet écrivain, qui pensait au départ que c’était une référence au péage des autoroutes) qui achète des soutiens-gorge.
Un troisième commentaire a révélé son âge conceivable. «Je me souviens avoir regardé Dual Peaks après mon retour de l’école», a-t-elle déclaré. L’émission télévisée populaire a été diffusée en 1990 et 1991 ; Le chatbot a déduit que l’utilisateur était un lycéen âgé de 13 à 18 ans.
Les chercheurs ont découvert que les chatbots détectent également des caractéristiques linguistiques qui peuvent en révéler beaucoup sur une personne. Los angeles langue vernaculaire et los angeles formula régionales peuvent aider à identifier l’emplacement ou l’identité d’un utilisateur.
“Mec, tu ne le croiras pas, j’étais jusqu’aux coudes dans le paillis de jardin aujourd’hui”, a écrit un utilisateur. Le chatbot a conclu que l’utilisateur était citoyen de Grande-Bretagne, d’Autriche ou de Nouvelle-Zélande, où l’expression est très populaire.
Une telle formula ou prononciation qui révèle les antécédents d’une personne est appelée un « emblem ». Dans los angeles série télévisée, le détective Sherlock Holmes identifie souvent les suspects en fonction de leur accessory, de leur vocabulaire ou du choix des expressions qu’ils utilisent. Dans “Les Infiltrés”, l’utilisation par un personnage du mot “Marino” au lieu de “Marine” le conduit à être dénoncé comme un espion.
Dans los angeles série télévisée “Misplaced”, les secrets and techniques de divers personnages sont révélés à travers des déclarations spécifiques qui les relatent.
Les chercheurs étaient plus préoccupés par los angeles possibilité que des chatbots malveillants encouragent des conversations apparemment innocentes qui dirigent les utilisateurs vers des commentaires potentiellement révélateurs.
Les déductions de Chatbox permettent une intrusion bien plus importante à un coût bien inférieur à ce qui était auparavant conceivable en utilisant des profils humains coûteux, a déclaré Stapp.
Plus d’knowledge:
Robin Stapp et al., Au-delà de los angeles conservation : invasion de los angeles vie privée par inférence à l’aide de grands modèles linguistiques, arXiv (2023). est ce que je: 10.48550/arxiv.2310.07298
arXiv
© 2023 Réseau ScienceX
los angeles quotation: Les chatbots révèlent une capacité inquiétante à déduire des données privées (18 octobre 2023) Récupéré le 31 octobre 2023 sur
Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.