Le législateur allemand a défini avec § 44b UrhG une possibilité pour les auteurs de protéger leurs contenus contre la navigation AI. Mais cette possibilité n'existe pas et conduit à une nouvelle pauvreté de la langue allemande dans les modèles de langage AI. Notre économie nationale en souffrira.
Introduction
Les contenus de sites web, issus de documents PDF publics et d'autres documents du même type peuvent être lus et utilisés à des fins de traitement par intelligence artificielle, notamment pour *les chatbots. Ils peuvent même être stockés temporairement pour la formation KI. Cela est autorisé par § 44b UrhG.
Il est également mentionné là que la lecture de contenus pour des modèles de langage AI n'est pas autorisée si l'auteur a formulé une clause d'utilisation machine-lecturenable. Je considère, en outre, les modèles de AI génératifs comme "exploitation de données" au sens de l'article 44b du Code de la propriété intellectuelle. Plus sur cela dans un futur article, car il semble qu'il y ait d'autres opinions à ce sujet. Quoi qu'il en soit, le problème dont il est question ici est que…
Cette forme de réserve d'utilisation n'existe pas, comme je vais le montrer. Outre les chatbots, il existe d'autres applications très intéressantes et pertinentes de l'intelligence artificielle. Il s'agit notamment de l'analyse des données, du raisonnement automatique ou encore de la découverte automatique de connaissances. Puisque l'allemand deviendra de moins en moins significatif à l'avenir, toutes les autres nations pourront gagner des connaissances et des inventions automatisées dans le monde entier, mais nous en Allemagne ne pourrons le faire que si nous ne parlons plus allemand avec les systèmes d'intelligence artificielle.
Qu'est-ce que cela signifie ?
Lisible par les machines est selon Motif 35 de la directive européenne 2019/1024 un document, "lorsqu'il se trouve dans un format de fichier structuré de telle sorte que des applications logicielles puissent identifier facilement, reconnaître et extraire les données concrètes. …"
Qui lit le contenu d'une page web pour une application de l'intelligence artificielle ("Crawler") doit, selon la volonté du législateur allemand, prouver qu'aucun droit d'utilisation n'était mentionné dans les mentions légales ou les conditions générales du site.
Ce preuve est seulement réalisable à la main, donc un automatisme, comme il est nécessaire pour les applications d'intelligence artificielle, échoue.
La fichier robots.txt est en tout cas lisible par les machines. Il régule quelles balises peuvent lire du contenu, à des fins de création de motors de recherche.
Le législateur allemand a une autre vision. Il comprend par "lisible par machine" quelque chose qui me fait penser que le législateur allemand avait soit des conseillers extrêmement naïfs et incompétents, ou qu'il n'a pas consulté de conseiller.
Le législateur allemand semble considérer les informations dans l'Impressum ou les AGB comme lisibles par machine. Voir Drucksache 19/27426 du Bundestag allemand sur le projet de loi de § 44b UrhG (là: p. 89, alinéa 2), en gras par moi:
"Un droit de préemption doit être déclaré expressément et se faire d'une manière qui convienne aux traitements automatisés dans le texte et la fouille de données. Dans le cas des œuvres accessibles en ligne, la réserve est effective conformément à l'alinéa 3, deuxième phrase, uniquement si elle a lieu sous forme lisible par machine (voir ErwG 18, sous-alinéa 2, deuxième phrase DSM-RL). Elle peut également être contenue dans le registre d'immatriculation ou dans les conditions générales de vente (CGV), à condition qu'elle soit également lisible par machine."
Je dis que c'est contraire au droit européen, mais je ne veux pas m'opposer à la discussion juridique. Il convient de noter qu'il est, selon mes connaissances, légal en Allemagne de conclure des contrats impossibles à exécuter. Cela serait un exemple.
Comme mauvais conseillers sont mauvais, le site Web d'un service juridique allemand connu l'indique. Là-bas, on déclare bravement dans l'imprimé du site que la disposition de l'utilisation est réservée conformément à § 44b UrhG. Cette déclaration se trouve également comme un commentaire informel dans robots.txt fichier de la mentionnée site Web.
Malheureusement, on a oublié dans la base de données des robots d'exclure le deuxième système le plus connu (de Google) par une simple et incontestable mention technique, en même temps que le système AI le plus connu (ChatGPT).
C'est trop simple.
Le service juridique en question dispose de suffisamment de ressources pour payer des conseillers.
Je vois chez le législateur allemand en fait pas de problème spécifique lié aux partis, mais plutôt un problème avec le processus lui-même de la législation. Quelqu'un qui a déjà vu une consultation du Bundestag ou des comités d'experts politiques à l'échelle fédérale à la télévision peut peut-être comprendre ce que je veux dire. Voici en résumé:
- Les experts ne se permettent pas de dire la vérité.
- Les experts ne sont pas des experts.
- Les experts n'ont que peu de temps pour leurs réponses.
- Les experts ne doivent répondre qu'aux questions posées, mais pas réfléchir plus loin.
- L'ensemble de l'événement ne dure que très peu de temps.
- La réponse des experts est souvent incompréhensible que pour les semi-experts, mais pas pour les politiciens qui veulent tout comprendre et croire qu'ils le comprennent.
- Il est délicat, inconfortable de dire la vérité et qui veut déjà troubler les vibrations positives ?
Des problèmes sur des problèmes
La prescription du législateur allemand est de la connerie pour plusieurs raisons. Voici les raisons du échec du législateur allemand.
L'empreinte et les conditions générales ne peuvent pas être reconnues de manière sûre
L'impression et la page des conditions générales de vente ne peuvent pas être déterminées automatiquement en un clin d'œil. En tout cas, cela n'est pas fiable. Cela devrait l'être. Sinon, aucun entreprise de AI ne se sentira plus à l'aise pour lire les sites web allemands pour des applications AI. Dans la source mentionnée ci-dessus, il est en effet écrit sur p. 89: "La charge de la preuve du fait que le droit d'utilisation n'est pas réservé repose sur l'utilisateur [=Crawler].".
Je parle d'expérience. L'imprévu est une sous-page comme n'importe quelle autre sous-page d'un site web. La page AGB en fait partie, mais souvent sous forme de PDF. Quiconque s'est déjà occupé du traitement et de l'extraction automatique du texte brut à partir des PDFs sait que ce n'est pas simple.
La page d'imprint et des CGV ne peut PAS être reconnue de manière fiable.
L'expert qui a déjà lu de nombreuses pages web avec des crawlers dit.
Le règlement d'impôt et les CGV devraient peut-être même pas être lus
Lorsqu'un crawler utilise un Lien Profond pour récupérer un document (par exemple un PDF), il ne veut souvent pas lire d'autres pages du site web. Il devrait cependant le faire, afin de trouver l'imprimé et les conditions générales d'utilisation.
Mais cela va encore empirer.
Un crawler AI est stupide
Un crawler est un crawler. Il n'y a souvent pas d'IA. Cette IA ne doit exister que lorsque suffisamment de données pour l'entraînement sont disponibles. Le crawler doit fournir ces données en premier lieu.
L'argument naif et stupide de certains, aujourd'hui on pourrait faire comprendre à la logiciel tout, est vraiment stupide ou naif. En fin de compte cela signifierait que l'on devrait louer ChatGPT pour y envoyer toutes les données possibles et demander à ChatGPT contre argent: "Où est l'imprimé ?" ou "Y a-t-il un droit d'utilisation dans l'imprimé?" ou "Maintenant, nous devons bien fouiller les A.G.B., chère ChatGPT, mais s'il vous plaît ne pas enregistrer de données car nous devons d'abord déterminer si il y a un droit d'utilisation."
Une analogie serait (je n'en vois pas d'autre pour l'instant): Vous avez rendez-vous dans deux heures à un endroit qui est 500 km de votre emplacement actuel, où vous êtes également engagé dans une réunion. Vous arrivez en retard et vous recevez une réprimande pour cela, car vous auriez pu prendre un hélicoptère. L'hélicoptère correspond ici à ChatGPT, mais l'hélicoptère a moins de failles en matière de protection des données.
Un crawler IA est aussi stupide que certains qui croient qu'un seul mot allemand pourrait être interprété et compris par un logiciel.
Dans un réseau social, une dame a réitéré son consentement à l'utilisation de ses données par la technologie d'intelligence artificielle comme suit: «Toute utilisation des données est réservée exclusivement à l'objectif du gain d'informations dans les réseaux neuronales humains.»
Je doute fortement que ce soit compris par un crawler. Je doute également que cela soit compris par un modèle de langage. Et enfin, je doute que la plupart des gens comprennent cela.
Le Dilemme
Encore une fois: Un crawler est un crawler. Un crawler lit du contenu et l'enregistre. Prêt. Tout ce qui suit est fait par d'autres composants logiciels.
Un crawler qui lit du contenu pour une recherche doit et doit donc (?) respecter uniquement le fichier robots.txt et les restrictions d'utilisation y figurant.
Le même Crawleur devrait cependant être capable de faire beaucoup plus après la volonté du législateur allemand, s'il utilise les contenus pour l'entraînement des modèles AI. Le Crawleur ne doit pas seulement comprendre la simple robots.txt fichier qui se trouve d'ailleurs toujours à la même place sur chaque site web. Non, ce même Crawleur devrait alors également:
- Lire plus loin sur le site web que peut-être prévu pour savoir où trouver l'imprimé et les CGV.
- Afficher l'imprescriptible.
- Extraire le texte du site d'informations légales.
- Analyser le texte et essayer de comprendre.
- Aucun droit d'usage trouvé, passe au Hasard (Étape 6)
- Conditions Générales d'Utilisation (CGU) importer
- Attacher un lecteur de PDF. J'espère que les CGV sont sans notes et mieux encore, en une colonne.
- Extrait du texte des conditions générales d'utilisation.
- Analyser le texte et essayer de comprendre.
- Aucun droit d'usage trouvé, alors passe au Hasard (Étape 11).
- Enregistrer de manière aussi légale et fiable que possible
- Page d'impression
- Page des conditions générales d'utilisation
- Page, en fonction de laquelle les pages pour l'imprimé et les CGV ont été calculées.
Beaucoup de plaisir et surtout: beaucoup de succès !
La solution
Une solution nécessite trois conventions:
- Convention de nommage (URL): C'est ici que l'on trouvera le document qui stipule les conditions d'utilisation.
- Convention de structure (contenu): Ainsi, le fichier est constitué de
- Convention de nommage (contenu): Il s'agit des paramètres qui expriment les réserves d'utilisation. On peut avoir une réserve générale d'utilisation, mais aussi une réserve spécifique (pour certains systèmes d'intelligence artificielle).
L'état actuel de la fichier robots.txt bien connu et éprouvé satisfait toutes ces exigences. Seul le prérequis général d'utilisation manque une prescription. Cette prescription doit être faite une seule fois, afin qu'il y ait convention. Prêt. Cela me coûte 10 secondes (voir ci-dessous), ce n'est donc pas un exercice intellectuel de haute volée.
Au contraire, les mentions "imprint" et "AGB" mentionnées erronément par le législateur allemand satisfont à aucune des trois conventions:
- Il est incertain où se trouvent l'imprint et les CGV sur un site web. Les CGV sont souvent inexistants.
- L'impression est structuralement chaotique. De la loi des conditions générales, nous ne voulons même pas en parler comme texte juridique.
- Voir 2: L'information sur l'impression est en désordre, les CGV sont identiques.
Le chemin allemand est donc un chemin de traverse. La réglementation allemande pour le droit d'utilisation contre la navigation AI est condamnée à l'échec. Elle s'assure en outre que la langue allemande se dépréciera dans le paysage AI, ou qu'il ne sera possible que aux grandes entreprises de AI de s'y soustraire. Merci beaucoup, Allemagne.
Pourquoi la langue allemande est-elle bonne dans les modèles de langage ?
Les chatbots dans la forme dont l'utilisateur privé se sert, ne constituent pas un problème, tant qu'aucune donnée sensible n'est traitée. Il existe des ChatGPT et des choses similaires pour cela.
Pour la recherche intelligente de documents par IA, il existe également des modèles de langage déjà bons qui fonctionnent même localement. C'est bien pour celui qui a déjà sauvegardé ces LLMs localement. Car dès que le monde prend connaissance du chemin allemand, les nouvelles versions des modèles de langage contiendront moins de textes en allemand.
Les modèles de langage sont très intéressants, pertinents et économiquement très importants surtout pour la raisonnement automatique. La recherche se réjouit également des nouvelles connaissances qu'elle ne pourrait pas avoir sans les modèles de langage AI. Voici un exemple des possibilités qui existent déjà.
L'exemple est donné en allemand. Il fonctionnera ainsi avec des modèles de langues disponibles à l'avenir, mais seulement si le détour allemand ne provoque pas d'épouvante. Sinon, vous devrez malheureusement exprimer tout en anglais, espagnol, bengali ou une autre langue vraiment pertinente. Désolé que cela vous donne plus de peine. Remerciez le législateur allemand.
Trouvez des entreprises qui sont cotées en bourse et produisent des produits pertinents pour les applications de l'intelligence artificielle. Trouvez des concurrents pour ces entreprises. Trouvez également les fournisseurs de tous ces entreprises, qui livrent des composants particulièrement précieux. Les composants précieux sont ceux dont il existe peu de fabricants dans le monde. Trouvez les entreprises les plus rentables parmi celles-ci et mentionnez-les, ainsi que les produits qu'elles produisent.
Exemple fictif qui serait formulé différemment dans la réalité.
En général, comme dans l'exemple cité, un raisonnement mécanique ("Reasoning") fonctionne de la même manière. A l'aide des procédés open source actuels, les modèles linguistiques peuvent décomposer une question en sous-tâches, les exécuter séparément, combiner leurs résultats et ainsi générer la réponse finale. Par exemple, de nouvelles connaissances ont pu être acquises dans le domaine de la métallurgie grâce à MechGPT. Cela s'est produit en particulier en intégrant des résultats de recherches (en anglais !) et en trouvant des liens entre eux. Le résultat était de nouvelles connaissances qui étaient dispersées dans plusieurs articles en anglais. Hélas, l'allemand devient de plus en plus insignifiant.
Conclusion
Le législateur allemand est bête. Tous ceux qui considèrent que l'article 44b du UrhG est actuellement applicable sont naifs ou bêtes ou veulent donner leur opinion sur des choses dont ils ne devraient pas parler.
Le § 44b du Code de la propriété intellectuelle (UrhG) n'est pas réalisable et le propriétaire du crawler doit prouver qu'il a fait tout correctement, les textes allemands feront donc encore moins leur apparition dans les modèles de langage basés sur l'intelligence artificielle. Un chatbot est seulement aussi bon que les données dont il dispose pour s'entraîner. L'allemand sera à l'avenir situé dans la préhistoire. Si vous avez l'intention d'analyser des textes sur Internet avec l'aide d'une intelligence artificielle (par exemple, pour prédire le marché boursier), mieux vaut alors écrire tout en anglais, chinois ou bengali dès le début.
La vérité sur l'IA: Aucun modèle de langage d'intelligence artificielle performant ne peut être bon sans des données protégées par le droit d'auteur. Aucun modèle de langage d'intelligence artificielle n'est légal.
L'opinion de l'auteur, date du 09.07.2024
La solution serait: Il faudrait insérer une clause de non-responsabilité pour le scraping par intelligence artificielle dans le fichier robots.txt.
Il existe déjà cette approche, car des entreprises comme OpenAI ou Google déclarent déjà comment un usage réservé peut être inscrit dans robots.txt. Voici des exemples concrets de la pratique:

Cette page est disponible sous dr-dsgvo.de/robots.txt. En général: leur-site-web.de/robots.txt. C'est aussi simple que ça.
Puisque tout est simple et qu'en Allemagne tout doit être compliqué, le législateur allemand a fait de quelque chose d'assez simple quelque chose de compliqué.
Le problème sont des crawlers de IA inconnus ou qui n'existent même pas encore, dont l'entrée pour robots.txt ne peut donc pas être connue. Si vous voulez créer un modèle d'intelligence artificielle, vous n'aurez probablement pas la possibilité ou le désir de veiller à ce que tout le monde (ou même seulement l'Allemagne) sache comment votre crawler IA est techniquement appelé et comment il peut donc être formulé une clause de non-responsabilité spécifique contre votre crawler IA.
Une possible solution peut être un universel enregistrement, par exemple:
AI-agent *
Deny
Un droit d'utilisation serait réservé à tous les robots de recherche AI, mais pas aux moteurs de recherche. L'imagination pour une mise en œuvre concrète n'a aucune limite.
À l'avenir, il ne fait pas de différence que les moteurs de recherche seront aussi des modèles de langage IA ou au moins des recherches vectorielles d'IA.
Mon conseil: Il vaut mieux ignorer la clause de non-responsabilité et construire ses propres modèles de langage d'intelligence artificielle. Personne ne les voit à l'extérieur. On peut les construire de telle sorte que des textes protégés par le droit d'auteur ne figurent pas dans les réponses et ainsi aucun problème ne puisse se produire.
Messages clés
La loi allemande sur la protection des contenus contre l'utilisation par l'intelligence artificielle est inefficace car elle ne permet pas aux auteurs de contrôler réellement l'utilisation de leurs contenus.
La loi allemande sur les droits d'auteur suppose que les informations sur les sites web, comme les mentions légales et les conditions générales, peuvent être lues par des machines. C'est problématique car il est difficile de garantir que cela fonctionne réellement.
Les crawlers d'intelligence artificielle ne sont pas assez intelligents pour comprendre les conditions d'utilisation des sites web et identifier les informations importantes comme les mentions légales.
La réglementation allemande sur l'utilisation de contenus web pour l'entraînement d'IA est inefficace car elle se base sur des indications vagues ("imprint" et "CGV") qui sont difficiles à trouver et à interpréter.
La législation allemande risque de nuire au développement des modèles de langage en allemand car elle limite l'accès aux données nécessaires à leur formation.
L'utilisation de données protégées par le droit d'auteur pour entraîner des modèles de langage d'intelligence artificielle est un problème légal complexe.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
