Comment les auteurs peuvent-ils protéger leurs œuvres contre l'utilisation par l'intelligence artificielle?

Les auteurs peuvent faire une réserve d'utilisation qui empêche leurs œuvres d'être utilisées par des modèles d'IA pour l'analyse de texte et de données. Cette réserve doit être formulée sous une forme lisible par machine.

Quel rôle joue le fichier robots.txt dans la protection des œuvres en ligne contre l'IA ?

Le fichier robots.txt permet aux auteurs d'interdire à certains systèmes d'IA, tels que les moteurs de recherche ou les chatbots, de crawler leurs sites web. Cela empêche ces systèmes d'extraire du contenu et de l'utiliser à des fins d'entraînement.

Comment empêcher efficacement les plateformes d'IA qui collectent du contenu provenant d'Internet ?

Il est pratiquement impossible d'exclure efficacement des plateformes d'IA individuelles, car le nombre est illimité et il est en constante évolution. La meilleure stratégie consiste à accepter l'utilisation des services Google ou à exclure complètement le Google Bot.

Quel rôle jouent les fichiers robots.txt dans le contexte de l'utilisation de l'IA par les moteurs de recherche?

Les fichiers robots.txt peuvent être utilisés pour exclure les robots d'indexation des moteurs de recherche, tels que le Google Bot, de certaines zones d'un site web. Cependant, cela est peu efficace face à l'augmentation de la collecte de données par des entreprises comme Google.

Pourquoi les modèles d'IA comme Bard peuvent-ils utiliser des informations provenant de textes en ligne sans violer le droit d'auteur?

Les modèles d'IA comme Bard argumentent qu'ils ne font qu'exprimer des informations publiquement accessibles, affichées sur les sites web. Ils affirment ne pas reproduire vos contenus mot à mot, mais plutôt fournir une interprétation sémantique.

Comment explique-t-on la difficulté de contrôler les droits d'auteur dans les modèles d'IA ?

En raison des longues périodes d'entraînement et des intervalles de données éloignés, les modèles d'IA contiennent souvent des informations obsolètes. De plus, ils ne peuvent pas réagir aussi rapidement aux changements ou aux demandes de suppression que les moteurs de recherche traditionnels, ce qui rend le contrôle des droits d'auteur plus difficile.

Pourquoi les modèles d'IA ne peuvent-ils pas oublier et quel en est l'impact sur les droits d'auteur?

Les modèles d'IA ne possèdent pas la capacité d'oublier, car ils stockent et traitent des informations provenant de textes en ligne. Cela signifie que même après une longue période et sans blocage, le contenu n'est pas supprimé du modèle, ce qui complique davantage le contrôle des droits d'auteur.

Quels sont les principaux problèmes des moteurs de recherche basés sur l'IA comme Bing ?

Les moteurs de recherche basés sur l'IA comme Bing peuvent fournir des réponses incorrectes basées sur des hallucinations. Un autre problème est l'absence de « ancrage », c'est-à-dire la connexion aux informations actuelles et fiables, ce qui peut entraîner des résultats inexacts.

Sichere KI, digitaler Datenschutz & Website-Compliance

Les auteurs de travaux accessibles en ligne ont selon la loi le droit d'exprimer une réserve de droits d'utilisation. Ainsi, les œuvres devraient être protégées contre l'infiltration dans des cerveaux électroniques. Fonctionne-t-il cet approche ? Dans ce billet, sont mentionnées les possibilités et les limites.

Introduction

L'intelligence artificielle a enormes capacités développées qui dépassent souvent celles de l'homme moyen. Le test de Turing est considéré comme positivement réussi. Ce test vérifie si un ordinateur est aussi intelligent qu'un homme. Oui, c'est désormais le cas. Comme le montre ChatGPT, une IA peut même surpasser l'homme dans certains domaines, au moins en moyenne sur tous les hommes. L'IA ne connaît pas la fatigue et peut toujours bénéficier de matériel de plus en plus performant, contrairement à l'homme avec son cerveau relativement limité. Les seuls avantages de l'homme sont, selon moi, la sensorialité et la capacité à explorer et à percevoir l'environnement. Cela va bientôt changer radicalement au profit des systèmes artificiels.

Les modèles AI peuvent absorber en ligne des textes et des images d'auteurs presque à leur gré, et ce de manière légitime juridiquement. La loi donne aux auteurs le droit à un droit d'utilisation, qui n'existe pas effectivement. Les raisons sont purement d'ordre organisationnel et technique.

Ces capacités incroyables de l'intelligence artificielle inquiètent à la fois. Les auteurs se soucient que leurs œuvres soient maintenant absorbées et détruites par un cerveau électronique. Google a déjà fait cela, mais nous n'avions pas réagi avec autant d'émotion: quelqu'un entre un mot-clé dans la machine de recherche. Au lieu que votre site web correspondant au mot-clé apparaisse et que vous puissiez capturer l'utilisateur et utiliser ses données pour vos fins légitimes, la réponse est donnée sous forme d'extrait du contenu sur la machine de recherche. L'utilisateur ne se rend même pas sur votre site web, mais il est plutôt déconnecté. Vous êtes le fournisseur de contenu et le fou. Google s'en réjouit. L'utilisateur n'y a pas pensé.

La demande d'une obligation de consentement est née de la volonté de nombreux auteurs dont les œuvres sont disponibles en ligne. L'auteur doit permettre à une intelligence artificielle de prendre possession de ses œuvres. D'autres demandent seulement ce qui est prévu par la loi, c'est-à-dire une possibilité d'abstention. Cette dernière est inscrite dans § 44b Abs. 3 UrhG et y est formulée comme suit:

Les utilisations prévues à l'article 2, paragraphe 1 [Multiplication de œuvres accessibles pour le texte et la fouille de données] sont autorisées uniquement si le titulaire des droits ne s'y est pas opposé. Un droit d'utilisation lorsqu'il s'agit d'œuvres en ligne n'est efficace que lorsque cela se fait sous forme lisible par machine.
Article 44b, alinéa 3 de la loi sur le droit d'auteur (UrhG)

Les reproductions des œuvres d'auteurs pour des fins de Intelligence Artificielle doivent être effacées dès qu'elles ne sont plus nécessaires. C'est toutefois sans importance, car si vous lisez un texte attentivement, vous savez ensuite sans le document original ce que le texte disait. De même fait une IA.

La réserve d'utilisation du point de vue technique

Les œuvres accessibles en ligne, par exemple des sites web, des PDF liés, des images, des fichiers audio, des fichiers texte brut ou des livres électroniques gratuits sont des exemples de tels travaux. Les auteurs de ces œuvres n'ont pas le droit d'accord (demande d'autorisation) selon l'article 44b du Code de la propriété intellectuelle, mais seulement la possibilité de s'y opposer. Lorsque l'auteur ne donne pas le signal pour opt-out, son texte peut être lu et utilisé pour le data mining en vertu de cette disposition légale. Dans ces processus d'exploitation, j'inclus également les applications d'intelligence artificielle. Avec cette opinion, je suis probablement seul. Elle est évidente.

En outre, le terme Désengagement n'est en réalité pas un synonyme de clause de non-responsabilité. Car un Opt-Out a effet aussi dans le passé, tandis qu'une clause de non-responsabilité ne s'applique qu'à l'avenir. Si la clause de non-responsabilité est donnée après une lecture par un crawler, elle n'a pas d'effet concernant cette lecture.

Source est la mise en œuvre technique d'une élection ?

Pour les moteurs de recherche et autres crawlers, cette possibilité existe déjà. Elle est donnée par le fichier robots.txt. Ce fichier suit une convention généralement définie, largement répandue et bien connue. Chaque moteur de recherche qui prétend être conforme aux lois respecte ce fichier.

Le fichier robots.txt d'une page web est disponible sous le chemin principal, par exemple sous dr-dsgvo.de/robots.txt. Il ressemble à ceci pour mon blog:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Remarque: J'utilise également un bot-filter dynamique qui bloque certaines moteurs de recherche.

Dans mon fichier robots.txt, il est déclaré que l'Internet Archive ne doit pas lire ma page web. Cela est marqué par l'agent utilisateur nommé ia_archiver et la directive Disallow (interdire). De même, je refuse au ChatGPT de faire du crawling, comme on peut le deviner à partir de l'agent utilisateur parlant nommé ChatGPT-User.

Le nom d'utilisateur-agence pour quelle moteur de recherche, quel crawler et quelle plateforme d'intelligence artificielle utiliser est inconnu. Les grandes plateformes publient le ou les noms de leurs crawlers (user-agents). Un crawler est un programme qui rassemble des contenus en ligne accessibles.

Le principe entier de la fichier robots.txt repose donc sur des conventions. Le procédé est techniquement extrêmement simple. Mais si ces conventions n'existent pas, alors ce procédé n'existe pas.

La réserve d'utilisation des œuvres accessibles en ligne par rapport à une IA est pour les auteurs en fait impossible. La raison est l'absence de convention technique. Les modèles d'IA déjà entraînés n'en tiennent pas compte, en tout cas, aucune réserve qui ne serait émise qu'après leur formation.
Réfère à l'article 44b, alinéa 3 du LGU (Loi sur le droit d'auteur).

Supposons que vous voulez bloquer une nouvelle plateforme de IA, qui a été révélée hier dans les médias. Comment faites-vous cela ? Tout d'abord, vous ne saviez rien sur cette plateforme jusqu'à hier, et donc vous n'aviez pas pu chercher l'agent utilisateur de la plateforme que vous voulez bloquer à partir d'aujourd'hui. D'un autre côté, un Roland ou une Susi pourraient construire leur propre modèle IA et y puiser du contenu sur Internet avec leur propre crawler.

Elles devraient trouver les noms techniques de toutes les plateformes d'intelligence artificielle, y compris la mienne, celles de tous les Rolands de 1 à 5000, celles des Susis de 1 à 13847, les expériences d'Elon, celles de votre voisin, celles de toutes les entreprises d'intelligence artificielle américaines etc.

Les plateformes AI peuvent actuellement être évitées individuellement et seulement à partir du moment où on est au courant de l'existence des plateformes d'informations en ligne disponibles.
Fait technique.

Il est évident que cette entreprise est condamnée à l'échec. Tout d'abord, vous ne connaissez pas toutes les plateformes de l'intelligence artificielle. Deuxièmement, vous n'avez même pas envie de connaître toutes les plateformes de l'intelligence artificielle, car alors vous seriez obligé de rechercher jour et nuit ou de vous connecter à un service qui recherche jour et nuit et qui est peut-être payant ou négatif pour votre visibilité. Puisque vous ne voulez pas bloquer toutes les moteurs de recherche, mais seulement les plateformes de l'intelligence artificielle méchantes et peut-être aussi les moteurs de recherche méchants.

Vous aurez un jour une fichier de blocage qui pourrait ressembler à ceci. À la fin des lignes, j'ai ajouté des valeurs de dates fictives en commentaire, auxquelles vous auriez associé l'entrée correspondante pour bloquer un certain crawler d'intelligence artificielle.

#Your robots.txt file
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2023
Disallow: /

Il est également possible de définir des entrées génériques en utilisant les symboles Joker. Mais cela peut éventuellement bannir trop d'agents de recherche. Il peut aussi être que certains agents ne sont toujours pas lancés.

Le problème devient encore plus grave, et notamment en deux sens au moins.

La puissance de marché de Google et Meta

J'ai essayé le 31/07/2023 de découvrir les noms techniques des Crawlers IA de Google et Meta pour pouvoir les bloquer. Google Bard est tout comme Meta LLAMA 2 un modèle de langage connu. Je ne veux pas que mes contenus apparaissent là sans que je reçoive d'argent à ce sujet. D'ailleurs, Google et Meta gagnent une fortune avec mes données et celles des autres. Ainsi, il n'y aura donc pas de contenu gratuit pour leurs IA de ma part.

Google explique dans ses avis sur la protection des données, qui entrent en vigueur le 01 juillet 2023, ce qui suit:

Par exemple, nous collectons des données disponibles en ligne ou dans d'autres sources publiques pour entraîner les modèles de l'intelligence artificielle de Google ainsi que le développement de produits et de fonctionnalités comme Google Traducteur, Bard et Cloud AI. Si vos informations commerciales apparaissent sur un site web, nous pouvons les indexer et les afficher dans les services Google.
Source: S. 32 des informations sur la protection des données de Google mentionnées ci-dessus.

Il est quasi certain que Google utilise son crawler de moteur de recherche pour utiliser les contenus lus également pour la formation de ses AI. Google n'a pas intérêt à vous et moi donner la possibilité de réfuter cela. Pour en faire une preuve, je donne ici une question du forum de support Google du 29 mars 2023:

Référence: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de (l'image a été traduite automatiquement).

Il n'y a pas de réponse à cette question importante même quatre mois après sa formulation. De plus, Google a bloqué la question, ce qui signifie qu'il est désormais impossible de répondre. Même si quelqu'un parvenait à découvrir comment désactiver le bot d'intelligence artificielle de Google, cette information ne serait pas publiée comme réponse dans le forum de support de Google.

À Meta (Facebook, Instagram, WhatsApp) il semble en être de même. Je n'ai pu identifier aucun nom technique d'un crawler Meta utilisé pour la formation des IA.

Il leur reste donc exactement une possibilité (chez Google): soit ils bloquent l'ensemble du bot Google et ne figurent plus ou presque plus dans les résultats de recherche Google, soit ils laissent faire à Google l'utilisation de leurs contenus et œuvres en ligne pour tous les usages qu'elle se réserve.

Si quelqu'un veut empêcher Google d'accéder à sa page web, voici l'instruction pour la fichier robots.txt:

User-agent: Googlebot
Disallow: /

Si un chemin plus profond est spécifié comme valeur pour le paramètre Disallow, la restriction ne concerne que cette partie de votre site web. Il y a donc peu d'options pour contrecarrer l'avidité des données de Google. D'ailleurs, je trouve admirable que vous transmettiez également à Google d'autres données de vos utilisateurs via votre site web et que vous rendiez ainsi Google encore plus puissant. Vous travaillez dur pour rendre Google encore plus puissant, sans rémunération ni base juridique. Au moins, vous prenez la peine d'intégrer des plugins comme Google Fonts, Google Maps ou Google Analytics plutôt qu'une police locale , une carte datenschutzfreundliche ou Matomo.

Selon mon avis, Google argumente ainsi:

Protection des données: «Nous, Google, ne traitons aucune donnée personnelle». Il semble que Google ne veuille pas savoir ce qu'est un traitement de données et explique donc le Manager de balises Google comme inapte au travail.
Intelligence artificielle:
- La chute a: vos données personnelles apparaissent dans la réponse de l'intelligence artificielle Google Bard. Google dira: "Mais vous avez bien rendu ces informations publiques. Nous montrons seulement ce que votre site affiche à tout le monde qui y accède."."
- Votre contribution sera reproduite dans vos propres mots et non comme citation notable par Google Bard en réponse aux questions des utilisateurs à la AI de Google. Google dira probablement: "Nos dépenses ne constituent pas une atteinte au droit d'auteur, car nous n' reproduisons pas vos contenus avec fidélité notable, mais dans des termes tout à fait différents

Les auteurs de textes en ligne ne sont souvent pas au courant du cas 2 b). Le cas 2 a) est celui qui comporte un certain nombre d'éléments sensibles, comme je vais le montrer plus bas.

Passons au problème suivant pour les auteurs qui ne souhaitent pas que leurs œuvres soient utilisées dans une intelligence artificielle.

Les mesures d'interdiction agissent dans le futur

ChatGPT-4 repose sur un ensemble de données du septembre 2021. Moi-même, je n'avais pas entendu parler de ChatGPT en 2022 et j'en avais seulement une vague idée. Il aurait donc été impossible pour la plupart des gens de définir une interdiction pour leurs propres œuvres qui empêcheraient à ChatGPT d'utiliser ces dernières.

Tous les contenus lus avant la mise en place d'une interdiction de ChatGPT ou d'autres modèles de IA sont présents dans le cerveau électronique. Même si des interdictions ultérieures d'un auteur n'y changent rien, ses œuvres ont déjà été aspirées. Seules les nouvelles œuvres ou mises à jour espérons ne seront plus exploitées par une IA tierce.

Les données issues de modèles d'intelligence artificielle sont à peine effaçables

Les réserves d'utilisation des auteurs ne peuvent pas être prises en compte aussi facilement et rapidement que dans les moteurs de recherche classiques. Peut-être qu'il n'est même pas possible de le faire à posteriori.

Même dans les grandes moteurs de recherche, il peut prendre quelques jours ou semaines pour que une demande d'effacement soit effectuée. Je peux parler ici sur la base de mon expérience. Une ville allemande avait eu un problème de données et m'avait demandé de l'aider à supprimer les données personnelles des grandes moteurs de recherche. Les derniers résultats non souhaités n'ont disparu qu'après plusieurs semaines.

Je suis au courant, personne n'est tenu de re-entraîner un modèle d'intelligence artificielle après son premier entraînement. Sans re-entraînement, toutes les données qui ont été lues pour créer le modèle restent dans le modèle. Cependant, ces données ne sont pas stockées sous forme brute, mais on enregistre plutôt leur structure ou leur essence. On peut difficilement être plus précis. Je me réfère au cerveau humain et à sa mémoire molle pour les informations.

Les modèles AI comme cerveaux électroniques ne peuvent pas oublier.
Mon niveau actuel de connaissance. Veuillez m'informer si je me trompe.

Un modèle de IA qui reste tel quel efface aucune donnée, y compris les œuvres en ligne des auteurs. Même dans d'autres cas, aucune donnée provenant de modèles d'IA n'est effacée. Même les modèles d'IA qui sont réentraînés ont souvent ce problème. Actuellement, la version 3.5 de ChatGPT est utilisable en Allemagne. Il ne sert à peu de chose que le droit d'utilisation d'un auteur puisque cette interdiction d'accès se limite à ChatGPT-4 et non à la version 3.5.

Même si chaque modèle de grande intelligence artificielle et donc potentiellement puissant était à nouveau entraîné à zéro, la retarderait considérablement. Bloomberg-GPT est un modèle d'intelligence artificielle pour les données financières. Pour cela, plusieurs millions d'heures de calcul coûteux seraient utilisées en utilisant des cartes graphiques haute performance follement nombreuses pour le calcul. Il ne peut pas être supposé que Bloomberg-GPT apparaît chaque mois dans une nouvelle version. Au contraire, il faut plutôt penser en termes d'annuités.

Pour que des informations indésirables disparaissent d'un modèle de IA, il faudrait probablement le "rater" (grounding). Cette procédure est cependant inquiétante et plus adaptée à l'élimination des fausses informations en remplaçant les informations correctes. Les capacités de l'oubli n'existent pas selon mes connaissances dans les modèles d'IA. Même le humain ne peut pas vraiment oublier. Un point d'ancrage ou un mot stimulus suffit souvent pour rappeler une mémoire censée être oubliée. C'est peut-être parce que notre matériel de tête n'est pas conçu pour la persistance que nous ne nous souvenons plus de tout. La situation est différente avec les cerveaux électroniques. Tant qu'il y a suffisamment d'électricité ou des sauvegardes, les informations ancrées dans le cerveau sont indélébiles.

Recherche par intelligence artificielle contre moteur de recherche

Une intelligence artificielle n'est pas une machine de recherche, lorsqu'on regarde la partie fonctionnelle. On peut bien sûr extraire des faits avec un modèle linguistique. Ces faits sont cependant souvent obsolètes en raison du long temps d'entraînement et des intervalles d'entraînement éloignés les uns des autres. Les faits actuels, en tout cas, ne se trouvent pas dans les modèles AI.

Pour une recherche exacte, comme les moteurs de recherche classiques qui la maitrisent excellentement, un système d'intelligence artificielle n'est pas adapté par nature. Au contraire, un système d'intelligence artificielle ressemble à une recherche sémantique, structurelle ou floue.

Techniquement, on parle d'un système de IA d'une machine à vecteurs.

Datenschutzsicht, il est toutefois indifférent de la structure du système. Les personnes en tant que propriétaires de leurs données ont le droit à une suppression des résultats de recherche (arrêt de la Cour de justice de l'Union européenne du 24.09.2019, affaire C-507/17). Par conséquent, Google doit s'assurer que les données personnelles disparaissent des résultats de recherche sur demande du propriétaire des données. Les réponses d'une intelligence artificielle à une requête de recherche sont également des données personnelles.

Dans la moteur de recherche Bing par exemple, on peut poser des mots-clés normaux ainsi que des questions complexes depuis peu. Bing répond à ces questions en utilisant son intelligence artificielle. Seul cela montre clairement qu'il ne fait pas de différence pour un besoin d'information d'une personne si le système concerné est une classique moteur de recherche comme DuckDuckGo, une moteur de recherche basée sur l'intelligence artificielle comme Bing ou un chatbot comme ChatGPT.

En passant, Bing fournit souvent des réponses fausses. Cela n'a pas grand-chose à voir avec les hallucinations, mais plutôt avec des vérités alternatives qui sont malheureusement souvent considérées comme des vérités. Selon Bing, les cookies sont des fichiers texte.

Demande à Bing du 31.07.2023. Mon contribution affirme le contraire, mais est citée comme source. (l'image a été traduite automatiquement).

On se réfère à mon article comme preuve de la réponse Bing. Je prouve exactement le contraire dans cet article. Avec un système AI amical avec les données, que des entreprises peuvent utiliser elles-mêmes et sans Microsoft, Google ou ChatGPT, cela ne se serait pas produit. La AI de Bing est donc dangereuse et ne donne même pas la moindre indication. Au lieu de cela, un autre terme de recherche est suggéré: «Sont les cookies dangereux ?».

Informations éphémères dans les moteurs de recherche d'intelligence artificielle

Une intelligence artificielle n'est pas une moteur de recherche, mais elle est parfois utilisée comme telle, comme le montre Bing. Cette approche a été développée en raison du manque de ressources (matériel, temps d'exécution) et consiste en:

Une intelligence artificielle parcourt l'ensemble du corpus documentaire, appelé index de recherche. C'est analogue à une moteur de recherche qui cherche cependant exactement ou plus précisément que l'intelligence artificielle.
Les documents les plus appropriés à la question sont sélectionnés.
L'IA ne reçoit que la question par rapport aux documents sélectionnés.
L'IA répond avec les connaissances des documents sélectionnés et utilise ses capacités linguistiques à cet effet.

Ainsi, des documents peuvent être supprimés du index de recherche d'une intelligence artificielle comme dans une moteur de recherche classique. Cependant, ces moteurs de recherche d'intelligence artificielle, comme je les appellerai ici, sont relativement peu fiables, comme le montre Bing. Bing n'est donc finalement pas vraiment utilisable et encore moins pour des documents provenant de son propre entreprise.

Les hallucinations d'une intelligence artificielle, telles que celles qui sont observables dans la recherche Bing pilotée par l'intelligence artificielle, peuvent être évitées dans les systèmes de l'intelligence artificielle propriétaires des entreprises.
Veuillez vous adresser à moi si vous êtes intéressé(e).

Ce qui manque à Bing, c'est un ancrage efficace. Bing ne peut pas y parvenir car les ressources nécessaires pour cela sont encore trop limitées chez Microsoft. C'est du moins mon hypothèse en connaissance des détails techniques des modèles de IA et de leurs besoins en matériels informatiques.

Il semble plus avantageux d'avoir des systèmes de AI propres à l'entreprise, dont un article spécifique sera publié prochainement sur Dr. RGPD. Ces systèmes peuvent appliquer le Grounding et combiner ainsi deux avantages:

Des informations à jour sont disponibles.
Les réponses aux questions posées à ce savoir sont très précises.

Les hallucinations peuvent être évitées dans des systèmes de IA locaux qui n'ont aucun rapport avec Microsoft, Google, Meta ou ChatGPT, mais uniquement dans des systèmes locaux. Avez-vous déjà pensé à un tel système d'IA pour votre entreprise ? Cela ne coûte pas fortune.

Droits d'auteur sur le texte, les images et autres médias ?

Pour les textes en ligne accessibles, il en va de même pour les images en ligne accessibles. Ici, le dilemme est peut-être encore plus grand, car on ne voit souvent plus à quelles sources un image générée par une intelligence artificielle provient. En tout cas, des générateurs d'images comme Midjourney ou DALL-E combinent plusieurs images ou même de nombreuses images. Le LAION-5B Datensatz, qui est très souvent utilisé avec les procédés de diffusion stable, permet une recherche d'appariement pour les images.

Voici les étapes que j'ai accomplies avec le dataset LAION pour voir si des images générées par intelligence artificielle ressemblaient à l'original disponible en ligne:

Génération d'une image par un générateur d'images de l'intelligence artificielle.
Des images similaires ont été recherchées dans la base de données LAION qui compte presque six milliards d'images pour ce cliché.
La ressemblance de l'image générée avec les images du jeu de données était chaque fois si faible que je, en tant qu'humain, ne peux pas reconnaître une atteinte aux droits d'auteur même après une vérification très stricte.

Mes tests n'étaient toutefois pas exhaustifs, mais plutôt ponctuels. J'ai déjà généré des milliers d'images de IA avec un système local d'IA.

Les générateurs d'images AI produisent très souvent des images qui sont complètement différentes des images d'origine (données d'apprentissage), donc le droit d'auteur ne s'applique plus ici.
Pour la formation, il faut au contraire respecter les conditions très favorables du droit d'auteur pour les modèles de l'intelligence artificielle.

Je vois régulièrement avec des textes que la reprise par le modèle de IA de mon choix se fait d'une manière qui diffère considérablement du original. Par conséquent, je ne pense pas qu'il soit pertinent de demander l'original ici. Cela n'a pas toujours besoin d'être aussi clair que les jugements sur des poèmes le prouvent. Si toutefois une entreprise utilise un modèle de IA, elle peut se protéger contre ce problème à plusieurs reprises.

Tout d'abord, les systèmes de IA autonomes peuvent être équipés de données d'apprentissage librement choisies. Ensuite, la sortie peut ne pas être publique, par exemple dans le réseau interne de l'entreprise. Le juriste sait mieux que moi dans quelle mesure cela réduit le droit d'auteur. Il est acquis: «Ce que je [comme auteur] ne sais pas, ne me met pas en feu». Le risque de non-publication des données est nettement inférieur à celui de la présentation des résultats. Troisièmement, les systèmes de IA propriétaires peuvent être équipés de mécanismes de modification de toute sorte. La meilleure chose est la rentabilité. Ce qui coûtait un patrimoine il y a quelques années est aujourd'hui abordable. Votre entreprise n'a pas besoin de ChatGPT (et si c'est le cas, je serais ravi d'en savoir plus sur son utilisation). En tant que moteur de recherche, en tout cas.

Résumé

Les informations qui sont une fois tombées dans un modèle de IA ne peuvent pas être facilement effacées de ce cerveau électronique. Il est encore plus difficile d'empêcher que ses propres œuvres en ligne soient incorporées dans des modèles de IA.

Ainsi, les contenus propres sont condamnés à être aspirés par de grandes plateformes d'intelligence artificielle. Le contre-argument à l'aspiration est possible en tant que suppression en soi, mais il ne concerne peut-être pas toutes sortes de travaux. Les données personnelles sont ainsi plus protégées que les textes dont l'essence est assimilée par la AI tierce et qui sont donc soustraits à la maîtrise du créateur du texte original.

Google travaille de manière particulièrement perfide et utilise tous les contenus lus à des fins autorisées. Cela inclut la recherche, ainsi que l'IA appelée Google Bard, ainsi que tout autre projet que Google se mettra en tête. De même semble-t-il être le cas pour Meta.

Le texte qui n'est pas écrit en premier lieu comme article d'information peut échapper aux modèles de l'intelligence artificielle. Car l'essentiel se trouve souvent entre les lignes.

Les auteurs de travaux disponibles en ligne n'auront pas la possibilité à moyen terme d'interdire à une intelligence artificielle l'utilisation de leurs œuvres.
Voir le post.

Le droit d'auteur des auteurs concernant leurs œuvres accessibles en ligne est en fait non réglementé et donc pratiquement impossible dans la réalité. Seul pour les systèmes mondialement connus comme ChatGPT, ce droit peut être réalisé à moitié.

Cependant, les informations provenant de modèles d'intelligence artificielle ne peuvent pas être effacées à court terme. Au contraire, un modèle d'intelligence artificielle doit être réentraîné à partir de zéro, ce qui est très long et donc rarement fait. Tant que cela durera, les œuvres propres seront disponibles dans une intelligence artificielle étrangère sans que le créateur en ait connaissance.

Il n'est pas exclu qu'il y aura des approches mathématiques pour effacer intentionnellement des données d'un modèle de IA. De toute façon, je n'ai rien entendu et je n'ai trouvé aucune information fiable à ce sujet. Je considère cela comme difficile et je pense que peu probablement il y aura un tel mécanisme en forme pratique dans les 12 prochains mois.

Tant que la tâche technique simple du droit de préemption n'est pas résolue d'après le modèle des robots de recherche, tous les créateurs de contenu sont en tout cas moins bien lotis qu'ils ne le souhaitent.

Il est probable que des règlementations juridiques soient établies au niveau de l'Union européenne pour protéger les données des auteurs contre un vol par des navigateurs AI. Mais c'est maintenant trop tard et encore plus lorsque ces règles juridiques commenceront à s'appliquer. Les idiots sont encore une fois les petites entreprises. Google et d'autres grandes entreprises continuent simplement à utiliser le trésor de données sur Internet (à moins que vous ne souhaitiez plus apparaître dans la page de résultats de recherche de Google). Quiconque possède des navigateurs puissants peut également chercher longtemps après les contenus dont l'utilisation n'a pas été interdite.

La technique l'emporte sur le droit, car la technique se déroule à la vitesse de la lumière et le droit au rythme d'un escargot.

Une plainte est actuellement en cours contre LAION. Un photographe souhaite supprimer à posteriori ses photos du dataset de LAION. Normalement, ces photos ne sont plus stockées chez LAION (il y a des indices qui suggèrent que c'est effectivement le cas, ce qui n'est pas nécessaire pour construire des modèles d'intelligence artificielle). Quoi qu'il en soit, le dataset de LAION est utilisé à l'échelle mondiale par de nombreux modèles de génération d'images. Une contrôle sur les composants individuels (ici: les photos) semble impossible.

ChatGPT a utilisé l'ensemble de données Common Crawl pour la formation à l'intelligence artificielle. Ce jeu de données est un extrait aléatoire de certaines parties d'Internet. Dès qu'une convention technique pour une notice de droits (robots.txt) existe, il devient gênant pour tous les modèles d'IA qui utilisent un ensemble de données Common Crawl à jour. Jusqu'à ce que cela se produise, il faudra probablement encore plusieurs mois ou quelques années. Juridiquement, il y a également des possibilités d'échappatoires. Par exemple, OpenAI pourrait affirmer pour un futur ChatGPT-5 qu'ils ont pris ChatGPT-4 comme base (Fine-Tuning) au lieu de la version 5 à partir de zéro. La base de données de ChatGPT-4 semble d'ailleurs être légitimée en matière de droits d'auteur en raison des notices de droits, car il n'y avait pratiquement aucune notice de droits en septembre 2021.

Résumé

L'essence du contribut et les conséquences en points clés:

Techniquement, un droit d'auteur de non-utilisation qui interdit aux modèles AI de s'auto-exécuter sur des œuvres en ligne n'est pas possible (du moins pour l'instant).
Un droit de préférence d'utilisation conformément à l'article 44b du UrhG n'a d'effet que pour l'avenir. Les modèles de IA déjà entraînés restent tels qu'ils sont.
Il n'y a pas de réserve d'autorisation pour les auteurs des œuvres en ligne librement accessibles par rapport aux modèles d'intelligence artificielle.
Les modèles AI ne peuvent pas être oubliés, et si c'est le cas, alors seulement avec de grandes difficultés et des retards considérables dans le temps.
Les modèles AI qui ne sont pas réentraînés prennent en compte les réserves d'utilisation qui ont été données après la formation AI.
Les temps difficiles arrivent pour les auteurs. Ce que peut faire et ce qu'un homme peut faire avec des œuvres étrangères, une intelligence artificielle peut le faire (et elle le fait probablement aussi).
La mention des sources d'un modèle de l'intelligence artificielle ne change rien , car les réserves d'utilisation sont jusqu'à présent pratiquement uniquement exprimées.
Google utilise évidemment toutes les données de crawl pour à la fois la moteur de recherche et Google Bard ou similaire. Ainsi, une contrôle pour les auteurs en raison du pouvoir de marché de Google est actuellement factuellement impossible.
Il existe de nombreuses échappatoires juridiques pour donner l'apparence d'une légitimité aux modèles d'intelligence artificielle.