
Il a fait un être humain l’écrire ou Chat GPT? Cela peut être difficile à dire, peut-être trop difficile, pense son créateur OpenAI, c’est pourquoi il travaille sur un moyen de « filigraner » le contenu généré par l’IA.
Dans un conférence à l’Université d’Austin, le professeur d’informatique Scott Aaronson, actuellement chercheur invité à OpenAI, a révélé qu’OpenAI développe un outil pour « filigraner statistiquement la sortie de texte [AI system].” Chaque fois qu’un système, tel que ChatGPT, génère du texte, l’outil intègre un « signal secret inaudible » qui indique d’où vient le texte.
L’ingénieur OpenAI Hendrik Kirchner a construit un prototype fonctionnel, dit Aaronson, et l’espoir est de l’intégrer dans les futurs systèmes développés par OpenAI.
« Nous voulons que ce soit beaucoup plus difficile à accepter [an AI system’s] sortie et faites-la passer comme si elle venait d’un être humain », a déclaré Aaronson dans ses remarques. style pour les incriminer.
Profiter du hasard
Pourquoi le besoin d’un filigrane? ChatGPT en est un bon exemple. Le chatbot développé par OpenAI a ont pris la l’Internet de tempêteafficher une aptitude non seulement à répondre à des questions difficiles, mais aussi à écrire de la poésie, à résoudre des énigmes de programmation et à devenir poétique sur un certain nombre de sujets philosophiques.
Bien que ChatGPT soit très amusant et vraiment utile, le système soulève des préoccupations éthiques évidentes. Comme beaucoup d’anciens systèmes de génération de texte, ChatGPT pourrait être utilisé pour écrire des e-mails de phishing de haute qualité et des logiciels malveillants malveillants ou pour tricher sur le travail scolaire. Et en tant qu’outil pour répondre aux questions, il est effectivement incohérent, une faille qui a conduit la programmation du site de questions-réponses Stack Overflow à interdire les réponses provenant de ChatGPT jusqu’à nouvel ordre.
Pour saisir la base technique de l’outil de filigrane d’OpenAI, il est utile de savoir pourquoi des systèmes comme ChatGPT fonctionnent si bien. Ces systèmes interprètent le texte d’entrée et de sortie comme des chaînes de « tokens », qui peuvent être des mots mais aussi des signes de ponctuation et des parties de mots. En interne, les systèmes génèrent constamment une fonction mathématique appelée distribution de probabilité pour décider du prochain jeton (par exemple, un mot) à émettre, en tenant compte de tous les jetons émis précédemment.
Dans le cas de systèmes hébergés OpenAI comme ChatGPT, une fois la distribution générée, le serveur OpenAI effectue le travail d’échantillonnage des jetons en fonction de la distribution. Il y a du hasard dans cette sélection ; c’est pourquoi la même invite de texte peut produire une réponse différente.
L’outil de filigrane d’OpenAI agit comme un « wrapper » sur les systèmes de génération de texte existants, a déclaré Aaronson lors de la conférence, tirant parti d’une fonction cryptographique fonctionnant au niveau du serveur pour sélectionner « pseudo-aléatoirement » le jeton suivant. En théorie, le texte généré par le système semblerait toujours aléatoire pour vous ou pour moi, mais toute personne possédant la « clé » de la fonction cryptographique serait en mesure de découvrir un filigrane.
« Empiriquement, quelques centaines de jetons semblent suffire pour obtenir un signal raisonnable que oui, ce texte est de [an AI system]. En principe, vous pourriez même prendre un long texte et isoler de quelles parties il provient probablement [the system] et quelles parties probablement pas. a déclaré Aaronson. « [The tool] il peut filigraner à l’aide d’une clé secrète et il peut vérifier le filigrane à l’aide de la même clé.
Limites clés
Le filigrane du texte généré par l’IA n’est pas une idée nouvelle. Les tentatives précédentes, principalement basées sur des règles, reposaient sur des techniques telles que les substitutions de synonymes et les modifications de mots spécifiques à la syntaxe. Mais en dehors de la théorie Rechercher publiée par l’institut allemand CISPA en mars dernier, celle d’OpenAI semble être l’une des premières approches du problème basée sur la cryptographie.
Lorsqu’il a été approché pour commenter, Aaronson a refusé d’en dire plus sur le prototype de filigrane, sauf qu’il s’attend à co-écrire un document de recherche dans les mois à venir. OpenAI a également refusé, déclarant seulement que le filigrane fait partie de plusieurs « techniques de provenance » qu’il explore pour détecter les sorties générées par l’IA.
Cependant, des universitaires et des experts de l’industrie non affiliés ont partagé des opinions mitigées. Ils notent que l’outil est côté serveur, ce qui signifie qu’il ne fonctionnerait pas nécessairement avec tous les systèmes de génération de texte. Et ils soutiennent qu’il serait trivial pour les opposants de contourner le problème.
« Je pense qu’il serait assez facile de le contourner en reformulant, en utilisant des synonymes, etc. », a déclaré Srini Devadas, professeur d’informatique au MIT, à TechCrunch par e-mail. « C’est un peu un bras de fer. »
Jack Hessel, chercheur à l’Allen Institute for AI, a souligné qu’il serait difficile de détecter imperceptiblement le texte généré par l’IA car chaque jeton est un choix discret. Une empreinte digitale trop évidente pourrait entraîner des choix de mots étranges qui dégradent la fluidité, tandis qu’une empreinte trop subtile laisserait place au doute lors de la recherche de l’empreinte digitale.

ChatGPT répond à une question.
Yoav Shoham, co-fondateur et co-PDG de Laboratoires AI21, un rival d’OpenAI, ne pense pas que le filigrane statistique suffira à identifier la source du texte généré par l’IA. Il appelle à une approche « plus complète » qui inclut le filigrane différentiel, où différentes parties du texte sont filigranées différemment, et des systèmes d’IA qui citent plus précisément les sources de texte factuel.
Cette technique de filigrane spécifique nécessite également beaucoup de confiance – et de puissance – dans OpenAI, ont noté les experts.
« Une empreinte digitale idéale serait méconnaissable pour un lecteur humain et permettrait une détection très fiable », a déclaré Hessel par e-mail. « Selon la façon dont il est configuré, il se peut qu’OpenAI lui-même soit la seule partie capable de fournir une telle détection en toute confiance en raison du fonctionnement du processus de » signature « . »
Dans sa conférence, Aaronson a reconnu que le programme ne fonctionnerait vraiment que dans un monde où des entreprises comme OpenAI sont en avance pour alimenter des systèmes de pointe et tout le monde convient qu’ils sont des acteurs responsables. Même si OpenAI partageait l’outil de filigrane avec d’autres fournisseurs de systèmes de génération de texte, tels que Cohere et AI21Labs, cela n’empêcherait pas les autres de choisir de ne pas l’utiliser.
« Soi [it] devient un jeu pour tous, tant de mesures de sécurité deviennent plus difficiles et peuvent même être impossibles, du moins sans réglementation gouvernementale « , a déclaré Aaronson. « Dans un monde où n’importe qui pourrait construire son propre modèle de texte, il était tout aussi valide [ChatGPT, for example] … que feriez-vous là-bas ?
C’est ainsi que cela se passe dans le domaine texte-image. Contrairement à OpenAI, dont DE-E 2 le système de génération d’images n’est disponible que via une API, IA de stabilité a mis en open source sa technologie text-to-image (appelée Diffusion stable). Alors que DALL-E 2 dispose d’un certain nombre de filtres au niveau de l’API pour empêcher la génération d’images problématiques (ainsi que des filigranes sur les images qu’il génère), l’open source Stable Diffusion ne le fait pas. Les mauvais acteurs l’ont utilisé pour créer faux pornoentre autres toxicités.
Pour sa part, Aaronson est optimiste. Au cours de la conférence, il a exprimé sa conviction que si OpenAI peut démontrer que le filigrane fonctionne et n’affecte pas la qualité du texte généré, il a le potentiel de devenir un standard de l’industrie.
Tout le monde n’est pas d’accord. Comme le souligne Devadas, l’outil a besoin d’une clé, ce qui signifie qu’il ne peut pas être entièrement open source, limitant potentiellement son adoption aux organisations qui acceptent de s’associer à OpenAI. (Si la clé était rendue publique, n’importe qui pourrait déduire le schéma derrière les filigranes, ce qui irait à l’encontre de leur objectif.)
Mais ce n’est peut-être pas si farfelu. Un représentant de Quora a déclaré que l’entreprise serait intéressée par l’utilisation d’un tel système et qu’elle ne serait probablement pas la seule.
« Vous pourriez vous inquiéter que tout ce qui consiste à essayer d’être sûr et responsable lors de la mise à l’échelle de l’IA… a déclaré Aaronson. Que ce soit par peur d’être poursuivi en justice, par désir d’être considéré comme un joueur responsable, ou quoi que ce soit. »