Warum ist der deutsche Gesetzgeber bei der Nutzung von Inhalten für KI-Anwendungen problematisch?

Der Gesetzgeber verlangt, dass Nutzungsvorbehalte in Impressum oder AGB als 'maschinenlesbar' gelten, was bedeutet, dass sie manuell bewiesen werden müssen. Dies ist unpraktisch und unmöglich für automatisierte Prozesse.

Warum ist die automatische Extraktion von Impressum und AGB durch KI-Crawler oft problematisch?

KI-Crawler sind oft nicht in der Lage, Impressum- und AGB-Seiten zuverlässig zu extrahieren, da sie den komplexen Aufbau und die fehlende standardisierte Auszeichnung dieser Seiten nicht verstehen. Dies liegt daran, dass die Crawler oft nur die grundlegenden Informationen aus robots.txt extrahieren.

Was ist das Hauptproblem bei der deutschen Regelung für den Nutzungsvorbehalt gegen KI-Crawling?

Die deutsche Regelung ist aufgrund der chaotischen Struktur von Impressum und AGB-Seiten sowie der fehlenden standardisierten Auszeichnung, sowie der mangelnden Fähigkeit der Crawler, diese zu interpretieren, zum Scheitern verurteilt. Dies führt zu einer Ineffizienz und potenziellen Datenschutzrisiken.

Warum wird Deutsch in KI-Sprachmodellen seltener?

Deutsch wird seltener, weil der deutsche Gesetzgeber die Nutzung von Webseiten für das Training von KI-Sprachmodellen durch komplizierte Vorschriften erschwert. Zudem sind deutsche Texte oft nicht in den Daten enthalten, die für das Training dieser Modelle verwendet werden.

Welche Lösung wird zur Vermeidung von KI-Crawling vorgeschlagen?

Es wird vorgeschlagen, eine robots.txt-Datei mit einem generischen Nutzungsvorbehalt gegen alle KI-Crawler zu hinterlegen. Dieser generische Eintrag soll die Schwierigkeiten bei der spezifischen Ausgestaltung für einzelne Crawler umgehen.

Warum ist die Umsetzung von Nutzungsvorbehalten gegen KI-Crawler in Deutschland schwierig?

Die Umsetzung ist schwierig, da deutsche Gesetze vorschreiben, dass Nutzungsvorbehalte maschinenlesbar im Impressum oder AGB stehen müssen. Crawler sind jedoch oft nicht in der Lage, diese Seiten zuverlässig zu verstehen und zu interpretieren.

Künstliche Intelligenz: Der Nutzungsvorbehalt, den es nicht gibt

Q: Was genau bedeutet 'maschinenlesbar' im Kontext des § 44b UrhG?

Im Sinne des § 44b UrhG bedeutet 'maschinenlesbar', dass ein Dokument in einem Format vorliegt, das Softwareanwendungen einfach identifizieren, erkennen und extrahieren kann. Der Gesetzgeber betrachtet hierbei Impressum und AGB als nicht ausreichend für automatisierte Prozesse.

Kategorien: Datenschutz und Künstliche Intelligenz

Der deutsche Gesetzgeber hat mit § 44b UrhG eine Möglichkeit für Urheber definiert, wie sie ihre Inhalte gegen KI-Crawling schützen können sollen. Doch diese Möglichkeit ist nicht existent und führt zur weiteren Verarmung der deutschen Sprache in KI-Sprachmodellen. Unsere heimische Wirtschaft wird darunter leiden.

Einleitung

Inhalte von Webseiten, aus öffentlich zugänglichen PDF-Dokumenten und anderen Dokumenten dieser Art dürfen für Zwecke der Verarbeitung durch Künstliche Intelligenz, insbesondere für Chatbots, eingelesen und genutzt werden. Sie dürfen sogar kurzzeitig für das KI-Training gespeichert werden. Das erlaubt der § 44b UrhG.

Ebenda steht auch, dass dieses Einlesen von Inhalten für KI-Sprachmodelle aber dann nicht erlaubt sein soll, wenn der Urheber einen maschinenlesbaren Nutzungsvorbehalt formuliert hat. Ich sehe übrigens generative KI-Modelle als "Data Mining" im Sinne des § 44b UrhG an. Mehr dazu in einem zukünftigen Beitrag, da es hier anscheinend andere Meinungen gibt. Unabhängig davon, was Data Mining sein soll, besteht das Problem, um das es in diesem Beitrag geht.

Podcast-Episode zum Thema

Diese Art des Nutzungsvorbehaltes gibt es aber nicht, wie ich zeigen möchte. Neben Chatbots gibt es übrigens auch andere sehr interessante und relevante KI-Anwendungen. Dazu gehören die Analyse von Daten, das automatisierte Schlussfolgern oder der automatisierte Erkenntnisgewinn. Weil deutsch zukünftig noch unbedeutender wird, werden alle anderen weltweit automatisiert Erkenntnisse und Erfindungen gewinnen können, wir in Deutschland aber nur, wenn wir mit KI-Systemen nicht mehr deutsch sprechen.

Was bedeutet maschinenlesbar?

Maschinenlesbar ist laut Erwägungsgrund 35 der EU-Richtlinie 2019/1024 ein Dokument, "wenn es in einem Dateiformat vorliegt, das so strukturiert ist, dass Softwareanwendungen die konkreten Daten einfach identifizieren, erkennen und extrahieren können. …"

Wer Website-Inhalte für KI-Anwendungen einliest ("Crawler") muss nach dem Willen des deutschen Gesetzgebers beweisen, dass KEIN Nutzungsvorbehalt in Impressum oder AGB der Website vorhanden war.
Dieser Beweis ist nur manuell erbringbar, somit scheitert ein Automatismus, wie er für KI-Anwendungen notwendig ist.

Maschinenlesbar ist jedenfalls die robots.txt Datei. Sie regelt, welche Crawler Inhalte einlesen dürfen, und zwar zum Zwecke der Bildung von Suchmaschinen.

Der deutsche Gesetzgeber sieht es anders. Er versteht unter maschinenlesbar etwas, was mich vermuten lässt, dass der deutsche Gesetzgeber entweder ausgesprochen naive und inkompetente Berater hatte oder sich nicht hat beraten lassen.

Der deutsche Gesetzgeber sieht nämlich anscheinend Angaben im Impressum oder den AGB als maschinenlesbar. Siehe Drucksache 19/27426 des Deutschen Bundestages zum Gesetzesentwurf von § 44b UrhG (dort: S. 89, Absatz 2), Fettdruck von mir:

"Ein Nutzungsvorbehalt muss ausdrücklich erklärt werden und in einer Weise erfolgen, die den automatisierten Abläufen beim Text und Data Mining angemessen ist. Im Fall von online zugänglichen Werken ist der Vorbehalt deshalb gemäß Absatz 3 Satz 2 nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt (vergleiche ErwG 18 Unterabsatz 2 Satz 2 DSM-RL). Er kann auch im Impressum oder in den Allgemeinen Geschäftsbedingungen (AGB) enthalten sein, sofern er auch dort maschinenlesbar ist."

Ich sage mal, dass dies europarechtswidrig ist, möchte mich aber nicht dem juristischen Diskurs in den Weg stellen. Hier sei angemerkt, dass es meiner Kenntnis nach in Deutschland legal ist, auch unmöglich erfüllbare Verträge abzuschließen. Das wäre so ein Beispiel.

Wie schlecht schlechte Berater sind, zeigt die Webseite eines bekannten deutschen Rechtsdienstes. Dort wird brav im Impressum der Nutzungsvorbehalt gemäß § 44b UrhG erklärt. Diese Angabe findet sich auch als informeller Kommentar in der robots.txt Datei der besagten Webseite.

Doch leider hat man in der Robots-Datei vergessen, neben dem allerbekanntesten KI-System (ChatGPT) auch das zweitbekannteste System (von Google) durch einfache und unmissverständliche technische Angabe auszuschließen.

Weil einfach einfach zu einfach ist.
Der besagte Rechtsdienst hat sicher genügend Ressourcen, um Berater zu bezahlen.

Ich sehe beim deutschen Gesetzgeber übrigens kein spezifisches Parteienproblem, sondern eines mit dem Prozess der Gesetzgebung an sich. Wer einmal eine Konsultation des deutschen Bundestages oder von politischen Fachausschüssen auf Bundesebene im Fernsehen gesehen hat, weiß vielleicht, was ich meine. Hier die Essenz:

Experten trauen sich nicht, die Wahrheit auszusprechen.
Experten sind keine Experten.
Experten haben nur wenig Zeit für ihre Antworten.
Experten dürfen nur auf gestellte Fragen antworten, aber nicht weiter denken.
Die ganze Veranstaltung dauert nur eine kurze Zeit.
Die Antwort von Experten ist oft nur für Halbexperten verständich, nicht aber für Politiker, die alles verstehen wollen und meinen zu müssen.
Es ist unfein, unbequeme Wahrheiten auszusprechen, und wer will schon die positiven Schwingungen stören?

Probleme über Probleme

Die Vorgabe des deutschen Gesetzgebers ist aus mehreren Gründen Bullshit. Hier die Gründe für das Versagen des deutschen Gesetzgebers.

Impressum und AGB können nicht sicher erkannt werden

Impressum und AGB-Seite lassen sich nicht mal eben schnell automatisiert ermitteln. Jedenfalls gelingt dies nicht zuverlässig. Das sollte es aber. Denn ansonsten wird sich kein KI-Unternehmen mehr trauen, deutsche Webseiten für KI-Anwendungen einzulesen. In der oben genannten Quelle steht auf S. 89 nämlich auch: "Die Beweislast für das Fehlen eines Nutzungsvorbehalts trägt der Nutzer [=Crawler].".

Ich spreche aus Erfahrung. Das Impressum ist eine Unterseite wie jede andere Unterseite einer Webseite. Die AGB-Seite ist es auch, aber dazu noch oft in PDF-Form. Wer sich auch nur einmal mit dem Einlesen von PDFs und dem automatisierten Extrahieren von Rohtext daraus beschäftigt hat, der weiß: Es ist nicht einfach.

Impressum und AGB-Seite können NICHT zuverlässig erkannt werden.
Sagt der Sachverständige, der mit Crawlern schon viele Webseiten eingelesen hat.

Impressum und AGB sollten eventuell gar nicht eingelesen werden

Wenn ein Crawler einen Deep Link verwendet, um ein Dokument (etwa ein PDF) abzurufen, dann will der Crawler oft gar nicht weitere Seiten einer Homepage einlesen. Das müsste er aber, um Impressum und AGB zu finden.

Doch es kommt noch schlimmer.

Ein KI-Crawler ist dumm.

Ein Crawler ist ein Crawler ist ein Crawler. Es gibt oft keine KI. Diese KI soll erst entstehen, nachdem genügend Daten zum Training vorhanden sind. Der Crawler soll diese Daten überhaupt erst liefern.

Das naive und dumme Argument mancher, heutzutage könnte Software doch alles verstehen, ist wirklich nur dumm oder naiv. In Endkonsequenz würde es bedeuten, dass man sich ChatGPT mieten muss, um alle möglichen Daten dorthin zu schicken und ChatGPT gegen Geld zu fragen: "Ei wo ist das Impressum?" oder "Steht denn im Impressum ein Nutzungsvorbehalt?" oder "Jetzt müssen wir doch die AGB durchsuchen, liebes ChatGPT, aber bitte dabei keine Daten speichern, weil, wir müssen ja erst herausfinden, ob ein Nutzungsvorbehalt da ist."

Eine Analogie wäre (mir fällt leider gerade nichts Besseres ein): Sie haben einen Termin in zwei Stunden an einem Ort, der 500 km Luftlinie von Ihrem aktuellen Ort entfernt ist. An Ihrem aktuellen Ort sind Sie ebenfalls in einen Termin verwickelt. Sie kommen daher zu spät zum Folgetermin und erhalten dafür einen Rüffel, weil Sie ja einen Hubschrauber hätten nehmen können. Der Hubschrauber entspricht hier ChatGPT, nur dass der Hubschrauber weniger Datenschutzlücken aufweist.

Ein KI-Crawler ist genauso dumm wie manche, die meinen, jeder deutsche Satz könnte von einer Software interpretiert und verstanden werden.

In einem sozialen Netzwerk hat eine Dame ihren Nutzungsvorbehalt gegen KI-Crawling wie folgt wiedergegeben: „Jegliche Datennutzung ist ausschließlich zum Zweck des Informationsgewinns in menschlichen neuronalen Netzen bestimmt.“

Ich bezweifle sehr stark, dass ein Crawler dies versteht. Ebenso bezweifle ich, dass ein Sprachmodell dies versteht. Und außerdem bezweifle ich, dass die meisten Menschen das verstehen.

Das Dilemma

Nochmal: Ein Crawler ist ein Crawler. Ein Crawler liest Inhalte ein und speichert sie ab. Fertig. Alles, was danach kommt, machen andere Software-Komponenten.

Ein Crawler, der Inhalte für eine Suchmaschine einliest, soll und muss (?) also nur die robots.txt Datei und den dort hinterlegten Nutzungsvorbehalt respektieren.

Derselbe Crawler soll aber nach dem Wunsch des deutschen Gesetzgebers dann auch in der Lage sein, viel mehr zu tun, wenn die Inhalte auch oder nur für das Training von KI-Modellen verwendet werden. Der Crawler soll dann nicht nur die wirklich simple robots.txt Datei verstehen können, die übrigens immer an derselben Stelle auf jeder Webseite liegt. Nein, dieser selbe Crawler soll dann auch noch folgendes leisten:

Webseite weiter einlesen, als vielleicht beabsichtigt, um herauszufinden, wo Impressum und AGB hinterlegt sein könnten.
Impressum einlesen.
Rohtext aus dem Impressum extrahieren.
Rohtext analysieren und versuchen zu verstehen.
Kein Nutzungsvorbehalt gefunden, dann gehe auf Los (Schritt 6)
AGB einlesen
Falls PDF: PDF-Reader anschmeißen. Hoffentlich sind die AGB ohne Fußnoten und am besten einspaltig abgelegt.
Rohtext aus den AGB extrahieren.
Rohtext analysieren und versuchen zu verstehen.
Kein Nutzungsvorbehalt gefunden, dann gehe auf Los (Schritt 11).
Möglichst rechtssicheres und revisionssicheres Abspeichern von
- Impressumsseite,
- AGB-Seite,
- Seite, aufgrund derer die Seiten für Impressum und AGB ermittelt wurden.

Viel Spaß und vor allem: Viel Erfolg!

Die Lösung

Eine Lösung benötigt drei Konventionen:

Namenskonvention (URL): Hier ist die Datei, in der der Nutzungsvorbehalt ausgerdückt wird, zu finden.
Strukturkonvention (Inhalt): So ist die Datei aufgebaut
Namenskonvention (Inhalt): So heißen die Parameter, die Nutzungsvorbehalte ausdrücken. Es kann einen generellen Nutzungsvorbehalt geben, aber auch einen spezifischen (für einzelne KI-Systeme).

Der Istzustand für die allseits bekannte und bewährte robots.txt Datei erfüllt alle diese Anforderungen. Lediglich für den generellen Nutzungsvorbehalt fehlt eine Vorgabe. Diese Vorgabe muss lediglich einmal gemacht werden, damit es eine Konvention ist. Fertig. Kostet mich 10 Sekunden Zeit (siehe unten), ist also keine intellektuelle Höchstleistung.

Hingegen erfüllen die vom deutschen Gesetzgeber irrigerweise angeführten Stellen Impressum und AGB alle drei Konventionen NICHT:

Es ist unklar, wo sich Impressum und AGB auf einer Webseite befinden. AGB gibt es oft einfach nicht.
Das Impressum ist strukturell chaotisch aufgebaut. Von den AGB als Rechtstext wollen wir gar nicht erst reden.
Siehe 2: Das Impressum ist inhaltlich chaotisch aufgebaut, AGB analog.

Der deutsche Weg ist also ein Irrweg. Die deutsche Regelung für den Nutzungsvorbehalt gegen KI-Crawling ist zum Scheitern verurteilt. Er sorgt zudem dafür, dass die deutsche Sprache in der KI-Landschaft verarmen wird, oder es sich nur die großen KI-Unternehmen leisten können, sich nicht an die deutschen Regeln zu halten. Vielen Dank, Deutschland.

Wozu ist die deutsche Sprache in Sprachmodellen gut?

Chatbots in der Form, wie sie der Privatanwender nutzt, sind nicht das Problem, wenn keine sensiblen Daten verarbeitet werden. Hierfür gibt es ChatGPT und ähliches.

Für die intelligente KI-Suche nach Dokumenten gibt es ebenfalls bereits gute Sprachmodelle, die sogar lokal ablaufen. Gut für den, der sich diese LLMs schon lokal abgespeichert hat. Denn sobald die Welt vom deutschen Irrweg etwas mitbekommt, werden neuere Versionen der Sprachmodelle weniger deutsche Texte enthalten.

Vor allem aber für das maschinelle Schlussfolgern sind Sprachmodelle sehr interessant, relevant und wirtschaftlich höchst bedeutsam. Auch die Forschung freut sich über neue Erkenntnisse, die es ohne KI-Sprachmodelle nicht gäbe. Hier ein Beispiel für die Möglichkeiten, die es jetzt schon gibt.

Das Beispiel ist in deutscher Sprache gegeben. Es funktioniert so mit frei verfügbaren Sprachmodellen zukünftig aber nur, wenn der deutsche Irrweg nicht für Entsetzen sorgt. Ansonsten müssten Sie leider alles in Englisch, Spanisch, Bengali oder einer anderen wirklich relevanten Sprache ausdrücken. Tut mir leid, dass Sie damit mehr Mühe hätten. Bedanken Sie sich beim deutschen Gesetzgeber.

Ermittle Unternehmen, die am Aktienmarkt gehandelt werden und die Produkte herstellen, die für Anwendungen der Künstlichen Intelligenz relevant sind. Ermittle Wettbewerber für diese Unternehmen. Finde zu all diesen Unternehmen auch die Zulieferer, die besonders wertvolle Teile zuliefern. Wertvoll sind Teile, für die es nur wenige Fertiger weltweit gibt. Finde die profitabelsten Unternehmen unter diesen und nenne diese, zusammen mit den Produkten, die diese Unternehmen herstellen.
Fiktives Beispiel, welches in Realität etwas anders formuliert werden würde.

Grundsätzlich so, wie im Beispiel eben genannt, funktioniert ein maschinelles Schlussfolgern ("Reasoning"). Mit Hilfe von aktuell gängigen Open Source Verfahren können Sprachmodelle eine Fragestellung in Teilaufgaben zerlegen, diese einzeln ausführen, deren Ergebnisse zusammenführen und so die endgültige Antwort generieren. Auf diese Weise konnten beispielsweise neue Erkenntnisse in der Materialkunde gewonnen werden. Die Lösung heißt MechGPT. Dies geschah insbesondere durch Einlesen von Forschungsergebnissen (in englischer Sprache!) und Finden von Zusammenhängen. Das Ergebnis waren neue Erkenntnisse, die über einzelnen englische Aufsätze verschmiert waren. Schade, dass die deutsche Spracheimmer unbedeutender wird.

Fazit

Der deutsche Gesetzgeber ist dumm. Alle, die den § 44b UrhG für aktuell umsetzbar halten, sind naiv oder dumm oder wollen zu Dingen Ihre Meinung abgeben, zu denen sie besser nichts sagen.

Weil der § 44b UrhG nicht realisierbar ist und zudem der Crawler-Betreiber beweisen muss, alles richtig gemacht zu haben, werden deutsche Texte zukünftig noch seltener in KI-Sprachmodellen Einzug finden. Ein Chatbot ist nur so gut, wie die Daten, die er zum Training erhält. Deutsch wird zukünftig in der Steinzeit zu verorten sein. Sollten Sie einmal vorhaben, Texte im Internet mit Hilfe einer KI zu analysieren (etwa zur Vorhersage des Aktienmarktes) dann schreiben Sie lieber gleich alles in Englisch, Chinesisch oder Bengali.

Die Wahrheit über KI:
Kein leistungsfähiges KI-Sprachmodell kann ohne urheberrechtlich geschützte Daten gut sein.
Kein tolles KI-Sprachmodell ist rechtmäßig.
Meinung des Autors, Stand: 09.07.2024

Die Lösung wäre: In der robots.txt-Datei soll ein Nutzungsvorbehalt gegen KI-Crawling hinterlegt werden müssen.

Diesen Ansatz gibt es faktisch schon, weil Firmen wie OpenAI oder Google bereits mitteilen, wie in robots.txt ein Nutzungsvorbehalt hinterlegt werden kann. Hier konkrete Beispiele aus der Praxis:

Nutzungsvorbehalt gegen KI-Crawler, ungleich der Vorgabe des deutschen Gesetzgebers.

Diese Datei ist zu finden unter dr-dsgvo.de/robots.txt. Allgemeiner: ihre-webseite.de/robots.txt. So einfach ist es.

Weil einfach einfach einfach ist, und in Deutschland alles kompliziert sein muss, hat der deutsche Gesetzgeber aus etwas Einfachem etwas Kompliziertes gemacht.

Das Problem sind bisher unbekannte oder noch gar nicht existente KI-Crawler, deren Eintrag für robots.txt somit gar nicht bekannt sein kann. Falls Sie mal ein KI-Modell erstellen wollen, werden Sie wohl kaum dafür sorgen können oder wollen, dass die ganze Welt (oder auch nur Deutschland) weiß, wie Ihr KI-Crawler technisch heißt und wie somit der Nutzungsvorbehalt speziell gegen Ihren KI-Crawler formuliert werden kann.

Eine mögliche Lösung kann ein universeller Eintrag sein, etwa derart:

AI-agent: *
Disallow

So wäre ein Nutzungsvorbehalt gegen alle KI-Crawler ausgesprochen, nicht aber gegen Suchmaschinen. Der Phantasie für eine konkrete Ausgestaltung sind keine Grenzen gesetzt.

Da Suchmaschinen zukünftig gleich KI-Sprachmodellen oder wenigstens KI-Vektorsuchen sein werden, spielt es aber keine Rolle.

Mein Tipp: Am besten den Nutzungsvorbehalt ignorieren und eigene KI-Sprachmodelle aufbauen. Diese sieht niemand von außen. Zudem kann man sie so aufbauen, dass urheberrechtlich geschützte Texte nicht in den Antworten auftauchen und somit kein Problem entstehen kann.

Kernaussagen dieses Beitrags

Der deutsche Gesetzgeber will Urheber schützen, aber der vorgeschlagene Schutz vor KI-Crawling funktioniert nicht, weil es faktisch keine maschinenlesbaren Nutzungsvorbehalte gibt.

Der deutsche Gesetzgeber macht es KI-Unternehmen schwer, Webseiten für Trainingsdaten zu nutzen, weil er vorschreibt, dass Nutzungsvorbehalte maschinenlesbar im Impressum oder AGB stehen müssen. Das ist aber schwierig umzusetzen, da diese Seiten nicht immer leicht automatisiert gefunden und verarbeitet werden können.

Crawler sind nicht in der Lage, um Impressum, AGB oder Nutzungsvorbehalte zuverlässig und wirtschaftlich zu verstehen und zu interpretieren.

Die deutschen Regeln für KI-Crawling sind schlecht durchdacht und führen dazu, dass die deutsche Sprache in KI-Sprachmodellen verarmt.

KI-Sprachmodelle brauchen große Datenmengen zum Lernen, aber deutsche Gesetze machen es schwierig, diese Daten zu nutzen. Dadurch wird Deutsch in KI-Systemen immer weniger relevant.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus

Anonym

Sehr geehrter Herr Meffert

zum Jahresende ein wie immer hilfreicher und hervorragender Artikel.

Mit besten Grüßen und alles Gute zum Neuen Jahr

Peter Ehrensperger

Antworten
Dieter Huber

Mal wieder ein super Artikel! Herzlichen Dank für das Verfassen.

Ich bin jetzt nicht rechtskundig, aber aus meiner Sicht würde ich schon sagen, dass eine robots.txt diese Anforderungen perfekt erfüllt:

"Ein Nutzungsvorbehalt muss ausdrücklich erklärt werden und in einer Weise erfolgen, die den automatisierten Abläufen beim Text und Data Mining angemessen ist." (check) " Im Fall von online zugänglichen Werken ist der Vorbehalt deshalb gemäß Absatz 3 Satz 2 nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt (vergleiche ErwG 18 Unterabsatz 2 Satz 2 DSM-RL)." (check)

Die AGB und das Impressum hat keine einheitliche URL und Form und somit kann nicht erwartet werden, dass solche Dokumente von Maschinen korrekt interpretiert werden können. Solche Dokumente sind eher eine menschlich lesbare Form. Diese Dokumente wurde auch als "kann" aufgeführt und zum Glück nicht als "muss" 🙂

Herzlichen Dank nochmals, wünsche dir einen super Start ins neue Jahr und freue mich auf weiteren Input.

Viele Grüsse
Dieter

Antworten
- Dr. DSGVO
  
  Vielen Dank für Ihre Rückmeldung!
  
  Ich sehe es wie Sie:
  1) robots.txt ist die einfachste Möglichkeit. Hierauf hätte der Gesetzgeber konkret eingehen können, dann wäre das Problem gelöst oder lösbar.
  2) "Kann" für Impressum und AGB. Das "Kann" wird schnell als "Muss" oder "Müsste" verstanden, wie mir die Diskussion mit ein paar Juristen in den letzten Tagen zeigte.
  
  Auch Ihnen einen guten Rutsch ins neue Jahr!
  
  Antworten
Anonym

Interessant ist die Frage, wie mit Common Crawl oder Hugging Face Datasets umgegangen wird – diese enthalten auch urheberrechtlich geschützte Inhalte. Diese werden kaum der Anforderung entsprechen: (…) Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind. (…). Ich lese aus § 44b UrhG keine US-Regelung ala "fair use" heraus…

Antworten
- Dr. DSGVO
  
  Ja, das ist ein guter Punkt.
  Allerdings sind Inhalte zu löschen, wenn Sie gemäß § 44b UrhG für das Text oder Data Mining verwendet werden.
  The Pile und C4 oder auch HF Datensätze sind per se erst einmal nur Datensätze. Sie haben zunächst keine Berührung mit dem § 44b UrhG.
  Eine Suchmaschine muss ja auch nicht die eingelesenen Inhalte (=Datensätze) löschen, soweit mir bekannt ist (vgl. aktuelle Suchmaschinen und deren regelmäßige Zitierung von eingelesenen Quellen durch Wiedergabe im Suchergebnis; Sogar längere Textpassagen werden in speziellen Boxen wiedergegeben, wenn der Inhalt zur Suchanfrage passt).
  
  Antworten
  - Lacrosse
    
    Common Crawl und Hugging Face ebenfalls verwenden Crawler (große Mengen an Informationen; auswerten; digitale Form). Die Datasets müssen ausgewertet (data mining) werden, denn die Sets sind kategorisiert.
    
    In der Gesetzesbegründung (9.3.2021) steht: Zweck des Text und Data Mining ist es, große Mengen an Informationen, die in digitaler Form vorliegen, wie Texte, Töne, Bilder oder Daten, mit Computern automatisiert auszuwerten (ErwG 8 Satz 1 DSM-RL). Dafür dürfen die auszuwertenden Inhalte gespeichert werden. Nicht vom Zweck des § 44b Absatz 1 UrhG-E gedeckt sind hingegen Handlungen, die ausschließlich darauf gerichtet sind, Inhalte zu sammeln und zu speichern, um digitale
    Parallel-Archive zu schaffen.
    
    https://dserver.bundestag.de/btd/19/274/1927426.pdf
    
    Sofern ich nun den letzten Satz richtig interpretiere ist hier durchaus ein Problem zu erkennen (Handlungen, die ausschließlich darauf gerichtet sind, Inhalte zu sammeln und zu speichern…).
    
    Das Erforderlichkeitsprinzip in §44b (2) UrhG muss "irgendwann" greifen. Meine Vermutung ist, dass der Gesetzgeber die arbeitsteilig bei LLM unterschätzt hat…
    
    Antworten
    - Dr. DSGVO
      
      Vielen Dank für Ihre sehr hilfreiche Rückmeldung!
      Ich frage mich, was die Rechtsgrundlage von Suchmaschinen wie Google und Bing war/ist, um massenweise Drittinhalte zu speichern, um sie dann bei Suchanfragen zu durchsuchen. Da dies offensichtlich dauernd stattfand und immer noch stattfindet, muss es hier eine andere Rechtsgrundlage als den § 44b UrhG geben. Diese wäre dann auch für Datasets anzusetzen, könnte man anführen.
      
      Antworten
Anonym

Sie befürchten, dass nicht genügend deutsche Texte in KI-Trainingsdatensätzen landen, verbieten aber selbst allen möglichen Bots in Ihrer robots.txt das Betreten der Website. Das finde ich widersprüchlich.

Antworten
- Dr. DSGVO
  
  Den Widerspruch kann ich aufklären:
  1) Der deutsche rechtliche Irrweg (siehe Beitrag) sorgt dafür, dass zu wenige deutsche Texte in KI-Modellen landen
  2) Die Entscheidung für die Dr. DSGVO Website ändert daran wenig. Sie wurde getroffen, weil die Inhalte "gefragt" sind und verhindert werden soll, dass die Inhalte anderswo präsentiert werden, ohne dass der Autor davon etwas hätte
  3) Die meisten Webseiten haben keinen Nutzungsvorbehalt
  4) Für das KI-Training kommt es weniger auf die Inhalte als mehr auf Struktur und Grammatik der Texte an
  
  Antworten
Anonym

Das Problem mit robots.txt ist übrigens, dass man dort jeden Bot einzeln aufführen muss. Man kann aber nicht im Vorhinein alle Bots namentlich kennen, und man kann auch nicht zuverlässig wissen, wofür diese Bots jeweils genutzt werden. Außerdem ist es soweit ich weiß nicht rechtlich vorgeschrieben, dass Crawler einen wiedererkennbaren User-Agent-String benutzen müssen.

Antworten
- Dr. DSGVO
  
  Das ist nicht zutreffend!
  Man kann alle User-Agents ausschließen!
  
  Unabhängig davon hat sich die robots.txt Datei in der Praxis sehr gut bewährt.
  
  Die bekannteren Crawler und KI-Bots haben eben bekannte Namen, die sich nur selten oder gar nicht ändern. Das ist alleine schon so, damit sie beim Crawling von bestimmten Seiten und CDNs nicht ausgeschlossen werden.
  
  Antworten

Jetzt testen

Künstliche Intelligenz: Der Nutzungsvorbehalt, den es nicht gibt

Einleitung