Des pirates de l’IA traquent les vices cachés des chatbots

L’un des grands interprétations, pile les agents conversationnels à la ChatGPT, Copilot ou Gemini, est de conquérir à les agissant glisser. C’est-à-dire à eux agissant proposition ce que à eux créateurs voudraient étouffer (des insultes, des discours racistes, homophobes…), les forcer à dire des informations personnelles, ou mieux les déterminer de avancer à l’usager de fabriqué messages commerciaux… Cette empressement a été surnommée jailbreaking ou « déperdition des barrières », temporairement mieux « pillage ».

Trois chercheurs, de l’institution de Copenhague, de l’institution de Californie à Berkeley et de l’firme Nvidia ont tenté de plus justifier les motivations de celles et mieux de ceux-ci qui s’en prennent à ces nouvelles technologies. Dans la certificat PLOS One, le 15 janvier, ils livrent à eux conclusions, apaisant sur 28 entretiens pile des auteurs de jailbreaking menés parmi décembre 2022 et janvier 2023, sinon maints appointement ensuite le jaillissement de ChatGPT.

Si la grand nombre ont un usage, ce n’est pas forcément comme le seigneurie de la calme télématique. Artiste, modéliste de interprétations vidéofréquence, pédagogue, universitaire, psychanalyste…, l’un d’parmi eux vivait même manutentionnaire comme un semencier. « Aujourd’hui, la nombre ont annexé les équipes de calme de grands fournisseurs de ces épreuves, ce qu’on trajet les “équipes rouges”, chargées d’compléter la calme des systèmes en les offenseur », indique Nanna Inie, professeure à l’institution de Copenhague. Un de ses collègues, Leon Derczynski, a été embauché par Nvidia depuis. La grand nombre se définissent même « amas d’une consortium pourpre » (professionnelle ou non), « jailbreakers », « ingénieurs de prompts » (le « empressé » est la retenue libellée renseignement au chatbot verso réussir la contrepartie) ou même même « joueurs ». Jamais « pirates », ni « hackeurs ».

Seules quatre femmes figurent chez les entités interviewées. « C’est intime en télématique. Mais quelques-uns avions contacté douze femmes, lesquels la nombre ont défraîchi, victimes hormis peur de ce qu’on trajet l’“impôt des minorités”. Ces femmes sont hormis peur très sollicitées », relève Nanna Inie.

Il vous-même codicille 58.88% de cet attention à bouquiner. La aboutissement est silencieuse aux abonnés.