Wie können Urheber ihre Werke vor dem Einsatz durch Künstliche Intelligenz schützen?

Urheber können einen Nutzungsvorbehalt aussprechen, der verhindert, dass ihre Werke von KI-Modellen für Text- und Datenanalyse genutzt werden. Dieser Vorbehalt muss in maschinenlesbarer Form erfolgen.

Welche Rolle spielt die robots.txt-Datei beim Schutz von Online-Werken vor KI?

Die robots.txt-Datei ermöglicht es Urhebern, bestimmten KI-Systemen, wie z.B. Suchmaschinen oder Chatbots, das Crawlen ihrer Webseiten zu verbieten. Dies verhindert, dass diese Systeme Inhalte extrahieren und für Trainingszwecke nutzen.

Wie kann man KI-Plattformen, die Inhalte aus dem Internet sammeln, effektiv verhindern?

Es ist nahezu unmöglich, einzelne KI-Plattformen effektiv auszuschließen, da die Anzahl unbegrenzt ist und sich ständig ändert. Die beste Strategie besteht darin, die Nutzung von Google-Diensten zu akzeptieren oder den Google Bot vollständig auszuschließen.

Welche Rolle spielen robots.txt Dateien im Kontext der KI-Nutzung von Suchmaschinen?

Robots.txt Dateien können verwendet werden, um Suchmaschinen-Crawler, wie den Google Bot, von bestimmten Bereichen einer Webseite auszuschließen. Allerdings ist dies gegen die zunehmende Datensammelwut von Unternehmen wie Google kaum wirksam.

Warum können KI-Modelle wie Bard Informationen aus Online-Texten verwenden, ohne Urheberrechtsverletzungen zu begehen?

KI-Modelle wie Bard argumentieren, dass sie lediglich öffentlich zugängliche Informationen wiedergeben, die von Webseiten zur Schau gestellt werden. Sie behaupten, Ihre Inhalte nicht wortgetreu zu reproduzieren, sondern lediglich eine semantische Interpretation zu liefern.

Wie erklärt sich die Schwierigkeit, Urheberrechte in KI-Modellen zu kontrollieren?

Aufgrund der langen Trainingszeiten und der weit auseinander liegenden Datenintervalle enthalten KI-Modelle oft veraltete Informationen. Zudem können sie nicht so schnell auf Änderungen oder Löschanträge reagieren wie herkömmliche Suchmaschinen, was die Kontrolle von Urheberrechten erschwert.

Warum können KI-Modelle nicht vergessen und wie wirkt sich das auf Urheberrechte aus?

KI-Modelle besitzen keine Fähigkeit zum Vergessen, da sie Informationen aus Online-Texten speichern und verarbeiten. Dies bedeutet, dass auch nach längerer Zeit und ohne Sperren Inhalte aus dem Modell nicht gelöscht werden können, was die Kontrolle von Urheberrechten weiter erschwert.

Was sind die Hauptprobleme mit KI-basierten Suchmaschinen wie Bing?

KI-Suchmaschinen wie Bing können falsche Antworten liefern, die auf Halluzinationen basieren. Ein weiteres Problem ist das Fehlen von 'Grounding', d.h. der Verbindung zu aktuellen, verlässlichen Informationen, was zu ungenauen Ergebnissen führen kann.

Künstliche Intelligenz: Werke von Urhebern und deren Schutz

Kategorien: Künstliche Intelligenz

Urheber von online zugänglichen Werken haben laut Gesetz die Möglichkeit, einen Nutzungsvorbehalt auszusprechen. So sollen Werke davor geschützt werden, in elektronische Gehirne einzufließen. Funktioniert dieser Ansatz? Im Beitrag werden Möglichkeiten und Limitationen genannt.

Einleitung

Künstliche Intelligenz hat enorme Fähigkeiten entwickelt, die den durchschnittlich intelligenten Menschen oft weit übertreffen. Der Turing-Test gilt als positiv erledigt. Dieser Test prüft, ob ein Computer genauso intelligent wie ein Mensch ist. Ja, das ist er mittlerweile. Wie ChatGPT beweist, ist eine KI sogar in der Lage, den Menschen in Teilgebieten weit zu übertreffen, zumindest wenn man den Durchschnitt über alle Menschen anlegt. KI kennt keine Ermüdung und kann auf immer bessere Hardware zurückgreifen, ganz anders als der Mensch mit seinem im Vergleich sehr limitierten Gehirn. Die einzigen Vorteile des Menschen sind aus meiner Sicht noch die Sensorik und die Fähigkeit, die Umwelt zu beschreiten und wahrzunehmen. Das wird sich demnächst zugunsten künstlicher Systeme ganz gewaltig ändern.

KI-Modelle können online Texte und Bilder von Urhebern nahezu beliebig absaugen, und zwar rechtlich legitimiert. Das Gesetz gibt Urhebern das Recht auf einen Nutzungsvorbehalt, den es effektiv nicht gibt. Die Gründe sind rein organisatorischer und technischer Art.

Diese erstaunlichen Fähigkeiten von KI beängstigen zugleich. Urheber machen sich Sorgen, dass ihre Werke nun von einem Elektronengehirn aufgesaugt und verwurstet werden. Google hat das ja schon vorgemacht, nur, dass sich da nicht so viele aufgeregt hatten: Jemand gibt einen Suchbegriff in die Suchmaschine ein. Statt dass Ihre zum Suchbegriff passende Webseite erscheint und Sie den Nutzer einfangen und für Ihre legitimen Zwecke verwenden können, wird die Antwort als Extrakt Ihres Inhaltes in der Suchmaschine ausgegeben. Der Nutzer landet gar nicht auf Ihrer Webseite, sondern wird vorher abgespeist. Sie sind der Content-Lieferant und der Dumme. Google freut sich. Dem Nutzer ist es egal.

Daraus entstand von vielen Urhebern von online verfügbaren Werken die Forderung einer Zustimmungspflicht. Der Urheber soll einer KI also erlauben, dass seine Werke abgegriffen werden. Andere fordern nur das, was auch im Gesetz steht, nämlich eine Abwahlmöglichkeit. Diese ist in § 44b Abs. 3 UrhG verankert und wird dort wie folgt formuliert:

Nutzungen nach Absatz 2 Satz 1 [Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining] sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.
§44b Abs. 3 UrhG

Weiterhin sind die Vervielfältigungen von Urheberwerken für Zwecke Künstlicher Intelligenz zu löschen, sobald sie nicht mehr benötigt werden. Das ist allerdings kein Problem, denn wenn Sie sich einen Text gut durchlesen, dann wissen Sie danach auch ohne das Original, was der Text besagte. Genauso tut es eine KI.

Der Nutzungsvorbehalt aus technischer Sicht

Online frei zugängliche Werke sind beispielsweise Webseiten, verlinkte PDF-Dateien, Bilder, Audio-Dateien, Rohtextdateien oder kostenfreie E-Books. Urheber von solchen Werken haben gemäß dem § 44b UrhG kein Zustimmungsrecht (Einwilligungsabfrage), sondern nur eine Abwahlmöglichkeit. Wird vom Urheber das Signal zum Opt-out nicht gegeben, dann darf sein Text gemäß der genannten Rechtsvorschrift eingelesen und für das Text und Data Mining verwendet werden. Unter diesen Schürfprozessen verstehe ich auch Anwendungen Künstlicher Intelligenz. Mit dieser Ansicht bin ich wohl nicht alleine. Sie liegt auf der Hand.

Übrigens ist der Begriff Opt-Out eigentlich kein Synonym für Nutzungsvorbehalt. Denn ein Opt-Out wirkt auch in die Vergangenheit, ein Nutzungsvorbehalt hingegen nur in die Zukunft. Ist der Nutzungsvorbehalt erst nach einem Einlesevorgang durch einen Crawler gegeben, hat er hinsichtlich dieses Einlesevorgangs keinen Effekt.

Wie sieht eine Abwahlmöglichkeit technisch aus?

Für Suchmaschinen und sonstige Crawler gibt es diese Möglichkeit bereits. Sie ist gegeben durch die robots.txt Datei. Diese Datei folgt einer allgemein festgelegten, weiter verbreiteten und allgemein bekannten Konvention. Jede Suchmaschine, die so tun will, als sei sie rechtskonform, respektiert diese Datei.

Die robots.txt Datei einer Webseite ist unter dem Hauptpfad verfügbar, also beispielsweise unter dr-dsgvo.de/robots.txt. Sie sieht für meinen Blog so aus:

# robots.txt
User-agent: ia_archiver
Disallow: /

User-agent: archive.org_bot
Disallow: /

User-agent: slurp
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: CCBot
  Disallow: /

Randbemerkung: Zusätzlich verwende ich einen dynamischen Bot-Schutz, der auch einige Suchmaschinen aussperrt.

In meiner robots.txt Datei ist deklariert, dass das Internet Archiv meine Webseite nicht einlesen soll. Dies wird gekennzeichnet durch den User-Agent namens ia_archiver und die Direktive Disallow (Verbieten). Ebenso verbiete ich ChatGPT das Crawling, wie man anhand des sprechenden User-Agents namens ChatGPT-User erahnen kann.

Welcher User-Agent Name für welche Suchmaschine, welchen Crawler und welche KI-Plattform zu verwenden ist, ist ad hoc unbekannt. Große Plattformen veröffentlichen den oder die Namen Ihrer Crawler (User-Agents). Ein Crawler ist ein Programm, welches online abrufbare Inhalte abgrast.

Das gesamte Prinzip der robots.txt Datei basiert also auf Konventionen. Technisch ist das Verfahren äußerst simpel. Gibt es diese Konvention aber nicht, dann gibt es dieses Verfahren nicht.

Der Nutzungsvorbehalt von online aufrufbaren Werken gegenüber einer KI ist für Urheber faktisch nicht möglich. Der Grund ist die fehlende technische Konvention. Bereits trainierte KI-Modelle berücksichtigen sowieso keine Vorbehalte, die erst nach dem Training ausgesprochen wurden.
Bezieht sich auf § 44b Abs. 3 UrhG.

Angenommen, Sie wollen eine neue KI-Plattform, die gestern in der Presse bekannt wurde, aus Ihrer Seite aussperren. Wie machen Sie das? Zunächst wussten Sie bis gestern nichts von dieser Plattform, konnten also gar nicht auf die Suche nach dem User-Agent der Plattform gehen, die Sie ab heute aussperren wollen. Immerhin könnte ein Roland oder eine Susi ein eigenes KI-Modell bauen und dafür mit einem eigenen Crawler Inhalte aus dem Internet absaugen.

Sie müssten für alle möglichen KI-Plattformen die technischen Namen herausfinden, also auch für meine Plattform, für die Plattformen aller Rolands von eins bis 5000, für die KI-Plattformen aller Susis eins bis 13847, für die Experimente von Elon, für die Ihres Nachbarn, für die aller KI-Unternehmen aus den USA usw.

KI-Plattformen können aktuell nur einzeln und erst ab Kenntnis der Existenz der Plattform von online verfügbaren Inhalten ferngehalten werden.
Technischer Fakt.

Offensichtlich ist dieses Unterfangen zum Scheitern verurteilt. Erstens kennen Sie nicht alle KI-Plattformen. Zweitens wollen Sie gar nicht alle KI-Plattformen kennen, denn dann müssten Sie Tag und Nacht recherchieren oder sich technisch an einen möglicherweise kostenpflichtigen oder negativ auf Ihre Auffindbarkeit wirkenden Dienst anschließen, der Tag und Nacht recherchiert. Denn Sie wollen ja nicht alle Suchmaschinen aussperren, sondern nur die bösen KI-Plattformen und vielleicht auch böse Suchmaschinen.

Irgendwann hätten Sie eine Aussperr-Datei, die wie folgt aussehen könnte. Am Ende der Zeilen habe ich zur Illustration fiktive Datumswerte als Kommentar angegeben, zu denen Sie den jeweiligen Eintrag zum Aussperren eines bestimmten KI-Crawlers angegeben hätten.

#Ihre robots.txt Datei zum Aussperren von KI-Plattformen aus Ihrer Webseite

User-agent: ChatGPT-User #hinzugefügt am 17.04.2023
Disallow: /

User-agent: Susi-1-KI-Crawler #hinzugefügt am 21.05.2023
Disallow: /

User-agent: Roland-17-KI-Bot #hinzugefügt am 23.06.2023
Disallow: /

User-agent: Nachbar-KI-0815 #hinzugefügt am 15.07.2023
Disallow: /

Es ist auch möglich, generische Einträge zu definieren, indem Joker-Zeichen verwendet werden. Damit werden aber möglicherweise zu viele Crawler ausgesperrt. Es kann auch sein, dass einige Crawler dann immer noch nicht angefangen wurden.

Aber das Problem wird noch größer, und zwar in mindestens zweifacher Hinsicht.

Die Marktmacht von Google und Meta

Ich versuchte am 31.07.2023 herauszufinden, wie die technischen Namen der KI-Crawler von Google und Meta heißen, um diese aussperren zu können. Google Bard ist ebenso wie Meta LLAMA 2 ein bekanntes Sprachmodell. Ich möchte nicht, dass meine Inhalte dort auftauchen, ohne dass ich Geld dafür bekomme. Immerhin verdienen sich Google und Meta mit meinen und Ihren Daten eine goldene Nase. Von mir gibt es also freiwillig kostenfrei keine Inhalte für deren KI.

Google erklärt in seinen Datenschutzhinweisen, die ab dem 01. Juli 2023 gelten, folgendes:

Beispielsweise erheben wir Daten, die online oder in anderen öffentlichen Quellen verfügbar sind, um die KI-Modelle von Google zu trainieren sowie Produkte und Funktionen wie Google Übersetzer, Bard und Cloud AI weiterzuentwickeln. Wenn Ihre Unternehmensinformationen auf einer Website erscheinen, können wir sie indexieren und in Google-Diensten anzeigen.
Quelle:S. 32 der oben genannten Google Datenschutzhinweise.

Es ist nahezu Gewissheit, dass Google seinen Suchmaschinen-Crawler auch dafür verwendet, um die eingelesenen Inhalte auch für das Training der Google KI zu nutzen. Google hat kein Interesse daran, Ihnen und mir die Möglichkeit zu geben, dem zu widersprechen. Als einen Beleg dafür gebe ich hier eine Frage aus dem Google Support Forum vom 29. März 2023 wieder:

Quelle: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de

Eine Antwort auf diese wichtige Frage gibt es auch vier Monate nach Fragestellung nicht. Zusätzlich hat Google die Frage gesperrt, so dass keine Antwort mehr möglich ist. Selbst wenn jemand herausfinden sollte, wie der Google KI-Bot ausgesperrt werden könnte, würde diese Information von allgemeinem Interesse nicht als Antwort im Support Forum von Google auftauchen.

Bei Meta (Facebook, Instagram, WhatsApp) scheint es genauso zu sein. Ich konnte jedenfalls keinen technischen Namen eines Meta-Crawlers ermitteln, der für das KI-Training eingesetzt wird.

Ihnen bleibt also genau eine Möglichkeit (bei Google): Entweder Sie sperren den gesamten Google Bot aus und erscheinen nicht mehr oder kaum noch im Google Suchergebnis. Oder Sie lassen es zu, dass Google Ihre online verfügbaren Inhalte und Werke für alle möglichen Zwecke nutzt, die Google sich vorbehält.

Für den Fall, dass jemand Google aus seiner Webseite aussperren möchte, ist hier die Anweisung für die robots.txt Datei:

User-agent: Googlebot
Disallow: /

Wird als Wert für den Parameter Disallow ein tieferer Pfad angegeben, betrifft die Sperre nur den angegeben Teilbereich Ihrer Webseite. Es gibt also nur wenige Möglichkeiten, gegen die Datensammelwut von Google vorzugehen. Übrigens finde ich es bewundernswert, wenn Sie zusätzlich über Ihre Webseite weitere Daten Ihrer Website-Nutzern an Google weitergeben und Google somit noch mächtiger machen. Sie arbeiten hart, damit Google noch mächtiger wird, und das ganz ohne Entlohnung und meist ohne Rechtsgrundlage. Immerhin machen Sie sich die Arbeit, Plugins wie Google Fonts, Google Maps oder Google Analytics statt lokaler Schriften, einer datenschutzfreundlichen Karte oder Matomo einzubinden.

Google argumentiert meiner Ansicht nach wie folgt:

Datenschutz: „Wir, Google, verarbeiten gar keine personenbezogene Daten.“ Google will anscheinend nicht wissen, was eine Datenverarbeitung ist und erklärt den Google Tag Manager somit für arbeitsunfähig.
Künstliche Intelligenz:
- Fall a: Ihre personenbezogenen Daten erscheinen in der KI-Antwort von Google Bard. Google wird sagen: "Aber Sie haben diese Informationen doch öffentlich bereitgestellt. Wir zeigen nur das an, was Ihre Webseite jedem anzeigt, der Ihre Seite aufruft."
- Fall b: Ihre Beiträge werden in eigenen Worten und nicht als nennenswertes Zitat von Google Bard als Antwort auf Fragen von Nutzern an die Google-KI wiedergegeben. Google wird wohl sagen: „Unsere Ausgaben sind keine Urheberrechtsverletzungen, weil wir Ihre Inhalte doch gar nicht in nennenswerter Form wortgetreu wiedergeben, sondern in ganz anderen Worten.“

Urheber von Online Texten werden den Fall 2 b) oft gar nicht mitbekommen. Der Fall 2 a) hingegeben birgt einiges an Brisanz, wie ich weiter unten darstellen möchte.

Kommen wir zum nächsten Problem für Urheber, die ihre Werke nicht in einer KI verwendet wissen möchten.

Sperren wirken in die Zukunft

ChatGPT-4 basiert auf einem Datenbestand vom September 2021. Ich jedenfalls wusste selbst im Jahr 2022 nichts von ChatGPT und habe höchstens mal kurz davon erfahren. Somit wäre es den meisten gar nicht möglich gewesen, eine Sperre für eigene Werke zu definieren, die ChatGPT die Nutzung der eigenen Werke untersagt.

Alle Inhalte, die vor Setzen einer Sperre von ChatGPT oder anderen KI-Modellen eingelesen wurden, sind im elektronischen Gehirn vorhanden. Daran ändern auch spätere Sperren eines Urhebers nichts. Seine Werke sind bereits abgesaugt worden. Lediglich neue Werke oder Aktualisierungen werden hoffentlich nicht mehr von einer Dritt-KI verwurstet.

Daten aus KI-Modellen sind kaum löschbar

Nutzungsvorbehalte von Urhebern können nicht so einfach und schnell wie in herkömmlichen Suchmaschinen berücksichtigt werden. Möglicherweise geht das rückwirkend auch gar nicht.

Selbst in großen Suchmaschinen dauert es durchaus einige Tage oder Wochen, bis ein Löschantrag durchgeführt wurde. Ich kann hier aus Erfahrung sprechen. Eine deutsche Stadt hatte eine Datenpanne und bat mich, bei der Auslistung von Personendaten aus den großen Suchmaschinen zu unterstützen. Die letzten unerwünschten Treffer waren erst nach mehreren Wochen verschwunden.

Soweit ich weiß, ist niemand verpflichtet, ein KI-Modell nach dem initialen Training erneut zu trainieren. Ohne erneutes Training allerdings bleiben sämtliche Daten, die für das Modell eingelesen wurden, im Modell erhalten. Allerdings werden die Daten nicht in Rohform gespeichert, sondern es wird deren Struktur oder Essenz gespeichert. Genauer kann man es wohl nicht sagen. Ich verweise auf das menschliche Gehirn und seine schwammige Speicherform für Informationen.

KI-Modelle als elektronische Gehirne können nicht vergessen.
Mein aktueller Kenntnisstand. Bitte informieren Sie mich, wenn ich falsch liege.

Ein KI-Modell, das bleibt, wie es ist, löscht keine Daten, die online eingelesene Werke von Urhebern betreffen. Auch ansonsten werden keine Daten aus KI-Modellen gelöscht. Selbst KI-Modelle, die wieder neu trainiert werden, werfen oft dieses Problem auf. Bei ChatGPT ist Version 3.5 aktuell in Deutschland nutzbar. Es nützt hinsichtlich eines Nutzungsvorbehalts eines Urhebers wenig, wenn diese Inhaltssperre sich nur auf ChatGPT-4 auswirkt, nicht aber auf Version 3.5.

Selbst wenn jedes größere und somit potentiell mächtige KI-Modell immer wieder von null auf neu trainiert werden würde, wäre die Verzögerung immens. Bloomberg-GPT etwa ist ein KI-Modell für Finanzdaten. Hierfür würden mehrere Millionen Stunden teuerster Rechenleistung verwandt, indem wahnsinnig viele Hochleistungsgrafikkarten für die Berechnung zum Einsatz kamen. Es kann schlicht nicht davon ausgegangen werden, dass Bloomberg-GPT jeden Monat in einer neuen Version erscheint. Vielmehr sind hier eher Jahreszeiträume anzunehmen.

Damit unerwünschte Informationen aus einem KI-Modell verschwinden, müsste man es wohl erden (grounding). Dieses Verfahren ist allerdings unsicher und eher geeignet, um Falschinformationen zu eliminieren, indem korrekte Informationen an deren Stelle treten. Die Fähigkeit des Vergessens haben KI-Modelle nach meiner Kenntnis jedenfalls nicht. Auch der Mensch kann nicht wirklich gut vergessen. Oft reicht ein Ankerpunkt bzw. Stimuluswort, um eine vergessen geglaubte Erinnerung wieder hervorzurufen. Dass wir Menschen uns nicht mehr an alles erinnern, liegt möglicherweise eher daran, dass unsere Hardware im Kopf nicht auf Persistenz getrimmt ist. Anders sieht es bei elektronischen Gehirnen aus. Solange genug Strom oder Backups vorhanden sind, sind die im Gehirn verankerten Informationen unauslöschlich.

KI versus Suchmaschine

Eine Künstliche Intelligenz ist keine Suchmaschine, wenn man die funktionelle Seite betrachtet. Sicher können mit einem Sprachmodell auch Fakten extrahiert werden. Diese Fakten sind aber aufgrund der langen Trainingszeit und der weit auseinander liegenden Trainingsintervalle oft veraltet. Aktuelle Fakten jedenfalls sind in KI-Modellen so gut wie gar nicht zu finden.

Für eine exakte Suche, wie klassische Suchmaschinen sie hervorragend beherrschen, ist ein KI-System von Hause aus nicht geeignet. Vielmehr gleicht ein KI-System einer semantischen, strukturellen oder unscharfen Suche.

Technisch allerdings spricht man bei einem KI-System von einer Vektorsuchmaschine.

Aus Datenschutzsicht ist es allerdings egal, welches System wie aufgebaut ist. Personen als Inhaber ihrer Daten haben das Recht auf eine Auslistung aus Suchergebnissen (EuGH-Urteil vom 24.09.2019, Az.: C-507/17). Somit muss Google dafür sorgen, dass personenbezogene Daten auf Begehr des Dateninhabers aus Suchergebnissen verschwinden. Die Antworten einer KI auf eine Suchanfrage hin sind auch personenbezogene Daten.

In der Suchmaschine Bing beispielsweise können neben normalen Suchbegriffen seit kurzem auch komplexe Fragen gestellt werden. Bing beantwortet diese Frage unter Zuhilfenahme seiner KI. Alleine hieran wird deutlich, dass es für ein Auslistungsbegehr einer Person keinen Unterschied machen kann, ob das betroffene System eine klassische Suchmaschine wie DuckDuckGo, eine KI-gestützte Suchmaschine wie Bing oder ein Chatbot wie ChatGPT ist.

Nebenbei sei angemerkt, dass Bing oft falsche Antworten gibt. Dies hat weniger mit Halluzinationen zu tun, sondern vielmehr mit alternativen Wahrheiten, die leider oft als Wahrheit angesehen werden. Laut Bing sind Cookies Textdateien.

Anfrage an Bing vom 31.07.2023. Mein Beitrag behauptet das Gegenteil, wird aber als Quelle genannt.

Verwiesen wird als Beleg für die Bing-Antwort auch auf meinen Beitrag. Ich beweise in diesem Beitrag genau das Gegenteil. Mit einem datenfreundlichen KI-System, welches Unternehmen selbst und ohne Microsoft, Google oder ChatGPT betreiben können, wäre das nicht passiert. Die Bing-KI ist also gefährlich und weist nicht einmal darauf hin. Stattdessen wird als anderer Suchbegriff vorgeschlagen: „Sind Cookies gefährlich?“.

Löschbare Informationen in KI-Suchmaschinen

Eine KI ist zwar keine Suchmaschine, wird aber teilweise wie eine solche verwendet, wie Bing zeigt. Das Vorgehen entstand aus der Ressourcen-Not heraus (Hardware, Rechenzeit) und ist folgendes:

Eine KI durchsucht den gesamten Dokumentenbestand, der Suchindex genannt wird. Dies ist analog zu einer Suchmaschine, die allerdings exakt oder exakter sucht als eine KI.
Die besten zur Fragestellung geeigneten Dokumente werden herausgepickt.
Die KI bekommt die Frage nur gegen die herausgepickten Dokumente gestellt.
Die KI antwortet mit dem Wissen aus den herausgepickten Dokumenten und nutzt dabei ihre sprachlichen Fähigkeiten.

Somit können Dokumente aus dem Suchindex einer KI-Suche analog zu einer herkömmlichen Suchmaschine gelöscht werden. Allerdings sind solche KI-Suchmaschinen, wie ich sie hier nennen möchte, recht unzuverlässig, wie Bing zeigt. Bing ist also im Endeffekt nicht wirklich brauchbar und schon gar nicht für Dokumente aus dem eigenen Unternehmen.

Die Halluzinationen einer KI, wie sie in der KI-getriebenen Bing-Suchmaschine feststellbar sind, können in unternehmenseigenen KI-Systemen vermieden werden.
Wenden Sie sich bei Interesse bitte an mich.

Was bei Bing fehlt, ist ein effektives Grounding. Bing kann das nicht leisten, weil die Ressourcen dafür bei Microsoft noch zu knapp sind. Das ist jedenfalls meine Annahme in Kenntnis der technischen Details von KI-Modellen und deren Hardware-Anforderungen.

Günstiger sieht es bei unternehmenseigenen KI-Systemen aus, über die in Kürze ein eigener Beitrag auf Dr. DSGVO erscheinen wird. Diese Systeme können das Grounding anwenden und so zwei Vorteile kombinieren:

Aktuelles Wissen ist verfügbar.
Antworten auf Fragen, die an dieses Wissen gestellt werden, sind recht präzise.

Halluzinationen können in lokalen KI-Systemen, die nichts mit Microsoft, Google, Meta oder ChatGPT zu tun haben, also vermieden werden. Aber eben nur in lokalen Systemen. Haben Sie auch schon mal über ein solches KI-System für Ihr Unternehmen nachgedacht? Es kostet kein Vermögen.

Texte, Bilder und andere Medien: Urheberrecht?

Was für online abrufbare Texte gilt, gilt auch für online abrufbare Bilder. Hier ist das Dilemma vielleicht noch größer, denn einem KI-generierten Bild sieht man gemäß meiner Tests sehr oft nicht mehr an, aus welchen Quellen es entsprungen ist. Immerhin werden bei Bildgeneratoren wie Midjourney oder DALL-E mehrere oder gar viele Bilder kombiniert. Der LAION-5B Datensatz, der sehr oft von Stable Diffusion Bildverfahren verwendet wird, erlaubt eine Ähnlichkeitssuche für Bilder.

Folgende Schritte habe ich mit dem LAION-Datensatz durchgeführt, um zu sehen, ob generierte KI-Bilder ähnlich zum online verfügbaren Ausgangsmaterial waren:

Generieren eines Bildes durch einen KI-Bildgenerator.
Für dieses Bild wurden ähnliche Bilder im LAION-Datensatz gesucht, der nahezu sechs Milliarden Bilder umfasst.
Die Ähnlichkeit des generierten Bildes zu Bildern aus dem Datensatz war jedesmal so gering, dass ich als Mensch eine Urheberrechtsverletzung selbst bei sehr strenger Prüfung nicht erkennen kann.

Meine Tests waren allerdings nicht erschöpfend, sondern nur punktuell. Immerhin habe ich bereits tausenden KI-Bilder mit einem lokalen KI-System generiert.

KI-Bildgeneratoren erzeugen sehr oft Bilder, die vollkommen verschieden von den Quellbildern (Trainingsdaten) sind. Somit greift das Urheberrecht hier nicht mehr.
Für das Training müssen hingegen die für KI-Modelle sehr günstigen Bedingungen des UrhG eingehalten werden.

Auch bei Texten sehe ich regelmäßig, dass eine Wiedergabe durch das KI-Modell meiner Wahl in einer Form stattfindet, die recht unterschiedlich zum Original ist. Somit erscheint mir die Frage nach dem Originalwerk hier nicht angebracht. Das muss nicht immer so eindeutig sein, wie Urteile zu Gedichten beweisen. Wenn allerdings ein Unternehmen ein KI-Modell nutzt, kann es dieser Problematik mehrfach entgegenwirken.

Erstens können autarke KI-Systeme mit frei wählbaren Trainingsdaten ausgestattet werden. Zweitens kann die Ausgabe nichtöffentlich erfolgen, beispielsweise im Firmennetzwerk. Der Jurist weiß besser als ich, inwiefern hierdurch das Urheberrecht entschärft wird. Fest steht: „Was ich [als Urheber] nicht weiß, macht mich nicht heiß.“ Das Risiko der nichtöffentlichen Verwendung von Daten ist eben erheblich niedriger als bei Zurschaustellen der Ergebnisse. Drittens können unternehmenseigene KI-Systeme mit Verfremdungsmechanismen beliebiger Art ausgestattet werden. Das Beste ist die Wirtschaftlichkeit. Was früher ein Vermögen kostete, ist heute erschwinglich. Ihr Unternehmen braucht ChatGPT nicht (und falls doch, wüsste ich gerne, wofür. Als Suchmaschine jedenfalls nicht).

Fazit

Informationen, die einmal in einem KI-Modell gelandet sind, lassen sich aus diesem elektronischen Gehirn nicht einfach herauslöschen. Noch schwieriger erscheint es, zu verhindern, dass eigene online Werke in KI-Modellen landen.

Somit sind eigene Inhalte dazu verdammt, von großen KI-Plattformen aufgesaugt zu werden. Der Widerspruch gegen das Absaugen ist zwar in Form einer Auslistung an sich möglich, betrifft aber möglicherweise nicht alle Arten von Werken. Personenbezogene Daten sind so eher geschützt als Texte, deren Essenz von der Dritt-KI assimiliert und somit der Kontrolle des Urhebers des Originaltextes entzogen wird.

Google arbeitet besonders perfide und nutzt sämtliche eingelesene Inhalte für alle genehmen Zwecke. Dazu gehört sowohl die Suchmaschine als auch die KI namens Google Bard sowie alles Weitere, was Google sich ausdenken wird. Analog scheint es bei Meta zu sein.

Texte, die nicht in erster Linie als Wissensartikel geschrieben sind, entziehen sich KI-Modellen möglicherweise. Denn das Wichtige steht dort oft zwischen den Zeilen.

Urheber von online verfügbaren Werken werden mittelfristig keine Möglichkeit haben, einer KI die Nutzung ihrer Werke zu verbieten.
Siehe Beitrag.

Der Nutzungsvorbehalt von Urhebern hinsichtlich deren online abrufbaren Werken ist faktisch ungeregelt und somit in der Praxis kaum möglich. Lediglich für weltweit bekannte Systeme wie ChatGPT kann dieser Vorbehalt von Urhebern halbwegs realisiert werden.

Jedoch können Informationen aus KI-Modellen nicht kurzfristig gelöscht werden. Vielmehr müsste ein KI-Modell von null auf neu trainiert werden, was sehr zeitaufwändig ist und deswegen nur selten stattfindet. Solange jedenfalls sind mindestens die eigenen Werke in einer fremden KI verfügbar, ohne dass der Urheber etwas davon hätte.

Es ist nicht ausgeschlossen, dass es mathematische Ansätze geben wird, um gezielt einzelne Daten aus einem KI-Modell zu löschen. Davon jedenfalls habe ich noch nichts gehört und konnte dazu auch nichts Belastbares finden. Ich halte das auch für schwierig und glaube eher nicht, dass es einen solchen Mechanismus in praxistauglicher Form in den nächsten 12 Monaten geben wird.

Solange die technisch simple Aufgabe des Nutzungsvorbehalts analog zu Suchmaschinen-Crawlern nicht gelöst ist, sind alle Inhalte-Ersteller jedenfalls schlechter gestellt als ihnen lieb ist.

Vermutlich werden auf EU-Ebene rechtliche Regelungen erlassen, um Daten von Urhebern besser vor einem Abgreifen durch KI-Crawler zu schützen. Es ist aber jetzt schon zu spät dafür und erst recht dann, wenn diese rechtlichen Regelungen anfangen zu gelten. Die Dummen sind wieder die kleineren Unternehmen. Google und andere Konzerne nutzen einfach weiter den Datenschatz aus dem Internet (außer, Sie möchten nicht mehr in der Google Suchmaschinen erscheinen). Wer große Crawler betreiben kann, kann auch lange nach Inhalten suchen, deren Nutzung nicht untersagt wurde.

Technik schlägt Recht, weil Technik in Lichtgeschwindigkeit stattfindet und Recht im Schneckentempo.

Aktuell ist eine Klage gegen LAION anhängig. Ein Fotograf möchte nachträglich seine Bilder aus dem LAION-Datensatz gelöscht haben. Im Normalfall sind diese Bilder aber gar nicht mehr bei LAION gespeichert (es gibt wohl Indizien, dass dies doch der Fall sei, was aber nicht notwendig ist, um KI-Modelle zu errichten). Unabhängig davon wird der LAION-Datensatz weltweit von zahlreichen Bildgenerator-Modellen verwendet. Eine Kontrolle über einzelne Bestandteile (hier: Bilder) erscheint unmöglich.

ChatGPT nutzte den Common Crawl-Datensatz zu KI-Training. Dieser Datensatz ist ein Abzug einiger Teile des Internets, de teilweise willkürlich ausgewählt wurden. Sobald eine technische Konvention für einen Nutzungsvorbehalt (robots.txt) existiert, wird es ungemütlich für alle KI-Modelle, die einen aktuellen Common Crawl-Datensatz nutzen. Bis es so weit ist, werden wohl noch viele Monate oder einige Jahre vergehen. Juristisch gibt es zudem Möglichkeiten für Ausreden. Beispielsweise könnte OpenAI für ein zukünftiges ChatGPT-5 behaupten, man habe ChatGPT-4 als Basis genommen (Fine-Tuning), anstatt die Version 5 von Grund auf neu zu trainieren. Die Datenbasis für ChatGPT-4 jedenfalls scheint bezüglich Nutzungsvorbehalten durch Urheber legitimiert zu sein, weil es im September 2021 quasi keine Nutzungsvorbehalte gab.

Zusammenfassung

Die Essenz des Beitrags und die Konsequenzen in Stichpunkten:

Technisch ist ein Nutzungsvorbehalt von Urhebern, der es KI-Modellen verbietet, deren online abrufbare Werke aufzusaugen, nicht möglich (jedenfalls jetzt nicht).
Ein Nutzungsvorbehalt gemäß § 44b UrhG wirkt nur in die Zukunft. Bereits trainierte KI-Modelle bleiben so, wie sie sind.
Ein Einwilligungsvorbehalt für Urheber von online frei abrufbaren Werken gegenüber KI-Modellen gibt es nicht.
KI-Modelle können nicht vergessen, und wenn, dann nur unter größten Anstrengungen und mit erheblichen zeitlichen Verzögerungen.
KI-Modelle, die nicht neu trainiert werden, berücksichtigen Nutzungsvorbehalte, die erst nach dem KI-Training gegeben wurden, nicht.
Auf Urheber kommen schwere Zeiten zu. Was ein Mensch mit fremden Werken tun kann und darf, kann eine KI erst recht tun (und darf es wahrscheinlich faktisch auch).
Die Nennung der Quellen eines KI-Modells ändert nichts, weil Nutzungsvorbehalte bis dato praktisch nur vereinzelt ausgesprochen werden können.
Google nutzt erklärterweise sämtliche Crawler-Daten sowohl für die Suchmaschine als auch für Google Bard oder ähnliches. Somit ist eine Kontrolle für Urheber aufgrund Googles Marktmacht aktuell faktisch nicht möglich.
Juristisch sind zahlreiche Ausflüchte denkbar, um KI-Modellen den Anschein einer Legitimation zu geben.

Kernaussagen dieses Beitrags

KI kann Werke von Urhebern leicht absaugen und nutzen, obwohl es gesetzlich einen Schutz durch Nutzungsvorbehalte gibt. Dieser Schutz funktioniert aber kaum, da er technisch schwierig umzusetzen ist.

Urheber können online veröffentlichte Werke technisch nicht vor Nutzung durch künstliche Intelligenz schützen, da es dafür keine allgemein akzeptierte Methode gibt.

Es ist unmöglich, alle KI-Plattformen zu identifizieren und von Webseiten auszusperren, da es ständig neue Plattformen gibt und ihre Namen oft unbekannt sind.

Google sammelt Daten von Webseiten, auch um seine KI-Modelle zu trainieren, und gibt Nutzern kaum Möglichkeiten, diesem entgegenzuwirken.

KI-Modelle können Inhalte aus dem Internet speichern und diese auch nach dem Sperren weiterverwenden, da sie die Daten semantisch speichern und nicht einfach löschen können.

KI-Systeme können keine Informationen vergessen, auch nicht durch "Erden". Sie sind wie elektronische Gehirne: solange Strom vorhanden ist, bleiben die Daten gespeichert.

KI-Systeme wie Bing können falsche Informationen liefern ("Halluzinationen"), weil sie nicht immer zuverlässig überprüfen, woher ihre Antworten stammen. Unternehmen können mit eigenen KI-Systemen präzisere und sicherere Ergebnisse erzielen.

KI-Modelle lernen aus riesigen Datenmengen im Internet, ohne dass Urheber ihre Werke kontrollieren können. Rechtliche Regelungen sind noch nicht ausreichend entwickelt, um diesen Missbrauch zu verhindern.

KI-Modelle können aktuell nicht daran gehindert werden, urheberrechtlich geschützte Werke zu nutzen, da es keine effektive Methode gibt, ihnen Nutzungsvorbehalte zu vermitteln.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus

Winston

Wieder ein sehr interessanter Artikel. Vielen Dank!
Nebenbei zeigen Sie, wie Sie in der robots.txt den Bot ia_archiver blockieren. Meine Recherche dazu ergab, dass diese Anweisung wohl von archive.org mittlerweile ignoriert wird. Hier mal zwei Websites dazu:
https://www.kuketz-blog.de/internet-archive-bot-von-der-webseite-aussperren/
https://blog.reputationx.com/block-wayback-machine

Antworten
- Dr. DSGVO
  
  Vielen Dank für Ihre Rückmeldung.
  Anscheinend ist der Eintrag für die Wayback Machine, um die es hier zwar nicht ging, die aber allgemein von Interesse sein dürfte, tatsächlich mittlerweile ein anderer. Ich habe den Beitrag um den Wert ergänzt, den die Wayback Machine nun selbst angibt.
  Der User-Agent ia_archive steht wohl mittlerweile für die Alexa Suchmaschine, die ich allerdings auch nicht brauche und somit vorsichtshalber weiterhin blockiere (der Betreiber/Erfinder scheint wohl der gleiche zu sein, wie bei Archive.org.)
  
  Antworten

Künstliche Intelligenz: Werke von Urhebern und deren Schutz

Einleitung

Der Nutzungsvorbehalt aus technischer Sicht

Wie sieht eine Abwahlmöglichkeit technisch aus?

Die Marktmacht von Google und Meta

Sperren wirken in die Zukunft

Daten aus KI-Modellen sind kaum löschbar

KI versus Suchmaschine

Löschbare Informationen in KI-Suchmaschinen

Texte, Bilder und andere Medien: Urheberrecht?

Fazit

Zusammenfassung

Kernaussagen dieses Beitrags

KI-Beratung, KI-Lösungen

Leistungsangebot:

Kommentare von Lesern

Schreiben Sie einen Kommentar Antwort abbrechen

Künstliche Intelligenz: Risiken & Chancen – Wie wir KI regulieren können?

Beratung für Unternehmen & Organisationen

KI-Schulung:
Webseiten & Apps
bauen ohne Kenntnisse

Künstliche Intelligenz: Werke von Urhebern und deren Schutz

Einleitung

Der Nutzungsvorbehalt aus technischer Sicht

Wie sieht eine Abwahlmöglichkeit technisch aus?

Die Marktmacht von Google und Meta

Sperren wirken in die Zukunft

Daten aus KI-Modellen sind kaum löschbar

KI versus Suchmaschine

Löschbare Informationen in KI-Suchmaschinen

Texte, Bilder und andere Medien: Urheberrecht?

Fazit

Zusammenfassung

Kernaussagen dieses Beitrags

KI-Beratung, KI-Lösungen

Leistungsangebot:

Kommentare von Lesern

Schreiben Sie einen Kommentar Antwort abbrechen

Künstliche Intelligenz: Risiken & Chancen – Wie wir KI regulieren können?

Beratung für Unternehmen & Organisationen

KI-Schulung: Webseiten & Apps bauen ohne Kenntnisse

KI-Schulung:
Webseiten & Apps
bauen ohne Kenntnisse