Die Revolution fand bereits statt und schreitet mit der Geschwindigkeit eines Raumschiffs mit Tachyonenantrieb voran. Für Content Creators wie mich gibt es mehrere effektive Möglichkeiten, um das Absaugen eigener Inhalte durch ChatGPT und andere Künstliche Intelligenzen zu verhindern.
In Kürze
Zusammenfassung:
Der Text behandelt das Thema Künstliche Intelligenz (KI), insbesondere ChatGPT von OpenAI, und den Datenschutz. ChatGPT ist ein KI-System, das den Turing-Test besteht und menschenähnliche Antworten auf Fragen liefert. Dies führt zu Bedenken hinsichtlich des Schutzes von Inhalten, die von Content Creators erstellt wurden, da KI-Systeme wie ChatGPT diese Inhalte nutzen können.
Diskutiert werden verschiedene Möglichkeiten, eigene Inhalte vor KI-Systemen zu schützen.
Beantwortete Fragen:
Frage: Was ist ChatGPT und welche Revolution hat es ausgelöst?
Antwort: ChatGPT ist ein Künstliche Intelligenz-System von OpenAI, das den Turing-Test besteht und massive Veränderungen in der Gesellschaft verursacht.
Frage: Wie können Ersteller von Inhalten ihre Inhalte vor Künstlicher Intelligenz wie ChatGPT schützen?
Antwort 2: Content Creators können ihre Inhalte schützen, indem sie Bezahlschranken, Anti-Bot-Schutz, dedizierte Benutzerzugänge und technische Sperren gegen Crawler einsetzen.
Frage: Was ist der Turing-Test?
Antwort 3: Der Turing-Test prüft, ob eine Künstliche Intelligenz sich so verhält, dass sie von einem Menschen nicht mehr unterscheidbar ist.
Frage: Was sind einige Beispiele für Schutzmaßnahmen gegen KI-Crawler?
Antwort: Beispiele für Schutzmaßnahmen sind Bezahlschranken, Captchas, Zugriffsbeschränkungen für registrierte Nutzer und das Blockieren von IP-Adressbereichen oder User-Agents.
Frage: Was ist der Common Crawl Index und wie kann man ihn blockieren?
Antwort: Der Common Crawl Index ist ein Datenbestand, der Teile des Internets abbildet; man kann ihn blockieren, indem man den CCBot in der robots.txt-Datei aussperrt.
Die wichtigsten Schlagworte:
Künstliche Intelligenz, ChatGPT, Turing-Test, Content Creator, Bezahlschranke, Anti-Bot-Schutz, Dedizierte Benutzer, Technische Sperre, Weiche Sperre, Harte Sperre.
Einleitung
Die größte Revolution der vergangenen Jahrzehnte wird für massive Veränderungen in der Gesellschaft sorgen. Gemeint ist Künstliche Intelligenz, und im Speziellen ChatGPT. ChatGPT ist ein Produkt der Firma OpenAI. Vielen ist dieses KI-System bereits bekannt.
ChatGPT besteht den Turing-Test. Soweit ich weiß, ist dies die erste KI, der dies gelang. Jedenfalls sehe ich es so. Wikipedia scheint in dieser Hinsicht veraltet zu sein. Der Turing-Test prüft, ob eine KI sich so verhält, dass sie von einem Menschen nicht mehr unterscheidbar ist. Dazu wird in einem Raum ein menschlicher Prüfer positioniert, der über eine Durchreiche Fragen an das Testobjekt gibt, ohne zu sehen, ob der Prüfling menschlich ist oder nicht. Der Prüfling beantwortet die Fragen.
Bereits seit längerem sorgt Google dafür, dass bestimmte (einfache) Fragen direkt in der Suchmaschine beantwortet werden. Dafür greift Google Drittinhalte von Ihnen und mir ab. Der Gewinner ist Google, der Nutzer freut sich, der Content Creator ist der Dumme. Derjenige, der die meisten Arbeit hatte, kommt am schlechtesten davon. Er bekommt nicht einmal einen Dank (etwa in Form eines Website-Besuchs, der zwar nicht viel bringt, aber besser als nichts ist).
ChatGPT hebt das Frage-Antwortspiel auf ein nie dagewesenes Niveau. Die Antworten sind teils besser als das, was ein Mensch liefern würde und oft mindestens genauso gut wie die eines intelligenten Menschen. Es ist übrigens falsch, dass ChatGPT im Wesentlichen auf einem stochastischen Modell basiert. Dieses mag auch Bestandteil sein. Logisches Folgern jedenfalls hat erst einmal wenig mit Stochastik zu tun. Jedenfalls nicht mehr als dieses Prinzip in unserem eigenen Gehirn verankert ist.
Beispiel:
Frage: Prüfe die folgende Aussage auf Plausibilität: Sven ist ein besserer Handwerker als Mareike. Mareike ist ein besserer Handwerker als Sven. ChatGPT: Die Aussage ist nicht plausibel, da sie einen Widerspruch enthält. Es ist nicht möglich, dass Sven besser als Mareike und gleichzeitig Mareike besser als Sven ist. Diese Aussage ist logisch inkonsistent und daher nicht möglich. Bewertung: Nahezu perfekte Antwort (die ich so auch gegeben hätte; meine Bekannte war aber schlauer). Frage: Kann es nicht sein, dass es zwei Personen namens Mareike gibt? ChatGPT: Ja, es ist theoretisch möglich, dass es zwei Personen mit dem Namen Mareike gibt, von denen eine besser im Handwerk ist als Sven, während die andere schlechter als Sven ist. In diesem Fall wäre die Aussage plausibel und nicht widersprüchlich. Allerdings wäre es in diesem Fall sinnvoll, die Aussage klarer zu formulieren, um Missverständnisse zu vermeiden. Zum Beispiel könnte man sagen: "Mareike A ist ein besserer Handwerker als Sven, während Mareike B schlechter ist als Sven." Bewertung: Meiner (spontanen) Meinung nach ist dies eine perfekte Antwort, der nichts hinzuzufügen ist.
Einen umfangreicheren Dialog mit einer schlechteren ChatGPT Version als der aktuellen habe ich in einem früheren Beitrag dargestellt. Darin sind auch Programme wie DEEPL genannt. Mit Hilfe von Programmen wie DALL-E oder Midjourney können weiterhin neuartige und beliebige Bilder in nie dagewesener Qualität erzeugt werden. Über diese bildgebende Künstliche Intelligenz hatte ich ebenfalls berichtet. Auch das Bild oben in diesem Beitrag wurde derart erzeugt.
Eigene Inhalte schützen
Bereits vor ein paar Monaten hat jemand aus Deutschland beschrieben, dass er Maßnahmen ergriffen hat, um die Inhalte auf seiner Webseite dagegen zu schützen, von einer KI abgesaugt zu werden.
Ich sehe im Wesentlichen folgende Möglichkeiten, um eigene Inhalte gegen KI's wie ChatGPT zu schützen. Was bringt es mir, wenn ich rein gar nichts dafür bekomme, dass andere meine Leistung verwenden?

Die Möglichkeiten zum Schutz vor Crawlern sind insbesondere:
- Bezahlschranke: Wird früher oder später auch für höherwertige Inhalte kleinerer Webseiten kommen; Große Nachrichtenseiten nutzen dieses Modell bereits.
- Anti-Bot-Schutz: Als Beispiel seien Captchas genannt. Hierauf gehe ich (noch) nicht näher ein, da technisch sehr anspruchsvoll und wir Google reCAPTCHA (in der unsichtbaren Version) als sehr datenfeindliches Werkzeug nicht nutzen wollen. Zudem ist ein solcher Schutz nicht vollständig effektiv.
- Dedizierte Benutzer versus Gäste: Nur registrierte Nutzer können alle Inhalte lesen.
- Technische Sperre gegen Crawler.
- Weiche Sperre: Bitte bitte, liebes ChatGPT, grase meine Webseite nicht ab.
- Harte Sperre: Türsteher, der ChatGPT und OpenAI Server hart aussperrt.
Zur Bezahlschranke werde ich aktuell keine Empfehlung geben. Inhalte, die kostenfrei waren, sollen es für den menschlichen Leser erst einmal bleiben. Zudem kommen bei Kaufprozessen rechtliche Probleme hinzu, die gelöst werden müssen (AGB, Button-Lösung, Widerrufsrecht etc.).
Ein Login für Nutzer, die alle Inhalte lesen können, ist ein recht guter Schutz gegen Bots. Zumindest müsste ein Bot ein kostenfreies (oder wie auch immer gestaltetes) Kundenkonto erlangen, damit er die Inhalte lesen kann. Dies ist möglich, wird aber dafür sorgen, dass riesige Crawler draußen bleiben. Welche Crawler-Firma kann oder will schon Accounts auf allen möglichen Websites betreiben? Das ganze kann dann mit einem Bot-Schutz kombiniert werden.
Das menschliche Gehirn ist auch „nur“ ein Automat, wenngleich ein (relativ betrachtet) noch sehr leistungsfähiger.
ChatGPT macht viele Dinge qualitativ ähnlich wie der Mensch. Manche denken aber, es wäre anders, weil sie nicht anerkennen, dass der Mensch keine Seele hat, sondern nur eine Simulation dessen, was manche als Seele bezeichnen.
Eine technische Sperre kann leicht und wirkungsvoll errichtet werden. Ich beschreibe im Folgenden die nötigen Maßnahmen.
Weiche Sperre
Der ChatGPT Crawler kann über eine Anweisung in der Datei robots.txt angewiesen werden, die Webseite zu ignorieren. Folgende Anweisung sorgt dafür:
User-agent: ChatGPT-User Disallow: / User-agent: GPTBot Disallow: /
Ob der Crawler der KI sich daran hält oder nicht, ist Vertrauenssache. Wer will schon einer KI vertrauen, wenn man mittlerweile nicht mal seinen eigenen Augen trauen kann? Alleine an der Tatsache, dass OpenAI mehrere User-Agents nutzt, die nicht transparent auf einer einzigen Seite beschrieben sind, wird das Problem für die Zukunft deutlich:
- ChatGPT-User: Aussperren von ChatGPT-Plugins
- GPTBot: Aussperren des OpenAI Web Crawlers
Harte Sperre
Eine weitere Möglichkeit ist das Aussperren der Serverzugriffe über deren Netzwerkadressen. Dafür muss ein Adressbereich deklariert werden, für den ein Zugriff auf die Webseite hart technisch unterbunden werden soll.
Der Adressbereich ist laut Information von OpenAI der folgende: 23.98.142.176/28
Die technische Sperre muss serverseitig auf dem eigenen Web Server realisiert werden. Mit Hilfe von Plugins wie WordFence für WordPress Webseiten ist die Umsetzung einfach. In WordFence gibt es eine integrierte Firewall. Für die Firewall muss nun eine Regel hinzugefügt werden, um den IP-Bereich auszusperren.
Das geht im Menüpunkt „Firewall“ im Abschnitt „Create a Blocking Rule“.

Als Blockiertyp wird „Custom Pattern“ ausgewählt. Im Feld „IP Adress Range“ kann das der Adressbereich der ChatGPT Server angegeben werden.
Analog kann zusätzlich eine serverseitige Regel zum Blockieren des User-Agents von ChatGPT erstellt werden. Dafür wird im Feld „Browser User Agent“ der Wert „*ChatGPT*“ angegeben und alle anderen Felder, bis auf „Block Reason“ bleiben leer. Die Sternchen im Namen von ChatGPT stehen für Jokerzeichen, da die Crawler-Kennung Präfixe und Postfixe aufweisen kann.
Eine Sperre für ChatGPT kann durch eine geeignete Einstellung vorgenommen werden. Diese Einstellung wirkt permanent und besteht aus mehreren Einträgen. Die Konfiguration für die Sperre über den Adressbereich und den User-Agent sieht dann so aus:

Die Sperre sorgt idealerweise auch dafür, dass ChatGPT Plugins ausgesperrt werden, die Webseiten abgrasen, um Informationen für Anfragen zu erhalten und zu kombinieren.
Einige Zeit später kann man sich diese Statistik erneut ansehen. In der Spalte „Block Count“ sind dann die Zugriffe aufgezählt, die blockiert wurden. Kleinstwebseiten werden wohl nur sehr selten oder nie von ChatGPT und OpenAI besucht. Bekannte Webseiten oder solche mit vielen Backlinks werden aber eher in den Genuss kommen, dass deren Inhalte in der Black Box namens ChatGPT verschwinden und wahrscheinlich nie wieder zurückgeholt werden können.
Weitere Bots
Common Crawl
ChatGPT nutzt bereits vorhandene Datenbestände anderer Crawler wie Common Crawl oder Wissensdatenbanken wie Wikipedia. Was bereits auf Wikipedia verzeichnet ist, wird wohl nicht zurückzuholen sein, zumal es keine wortgetreue Wiedergabe eigener Inhalte ist, sondern eine Zusammenfassung durch Dritte. Wie ein Leser im Kommentar richtig mitteilte, verwendet ChatGPT auch den Common Crawl Index (Language Models are Few-Shot Learners von OpenAI, Tabelle auf S. 9).
Der Common Crawl Datenbestand ist ein Abzug eines Teils des Internets, der bereits seit längerem und ganz unabhängig von ChatGPT oder OpenAI angefertigt wird. Wer wissen will, ob seine Webseite im Common Crawl Index vorhanden ist, kann sich alle Dateien dort herunterladen und durchsuchen. Mit einem Python-Script geht es möglicherweise einfacher. Noch einfacher, jedenfalls bei meinem Test, geht es mit dem Tool gau (get all URLs), das neben CommnCrawl auch die Provider Wayback Machine (archive.org), AlienVault's Open Threat Exchance und URLScan berücksichtigt.
Oft wird statt dem ursprünglichen Common Crawl Datensatz der C4-Datenbestand verwendet. C4 steht für Colossal and Cleaned version of Common Crawl, ist also ein bereinigter Common Crawl-Datenbestand.
Um den Crawler des Common Crawl Index auszusperren, reicht folgende Angabe in der robots.txt Datei (Achtung: Die Namen der User-Agents scheinen sich regelmäßig leicht zu ändern!)
User-agent: CCBot Disallow: / User-agent: CCBot/1.0 Disallow: / User-agent: CCBot/2.0 Disallow: / User-agent: CCBot/3.0 Disallow: /
Wer die Sicherheit erhöhen will, nicht gecrawlt zu werden, konnte seinen Server gegen Zugriff durch die IP-Adressen 38.107.191.66 bis 38.107.191.119 sperren. Mittlerweile läuft der Crawler aber auf AWS und besitzt somit offenbar wechselnde Netzwerkadressen.
Internet Archive (Wayback machine)
Die Adresse Archive.org zeigt historische Daten von Website-Scans. Wer hier nicht landen will, sollte dies dem Wayback-Roboter durch folgenden Eintrag in der robots.txt Datei mitteilen:
User-agent: ia_archiver Disallow: /
Wurde eine Webseite von der Wayback machine bereits abgerufen, dann befindet sie sich in deren Index. Die genannte Robots-Anweisung sollte dafür sorgen, dass sie im Index nicht mehr öffentlich abrufbar ist. Um die Daten ganz löschen zu lassen, muss eine DMCA Anfrage per E-Mail an das Internet Archiv gestellt werden.
Fazit
Traue keiner KI, die Du nicht selbst deaktiviert hast. Wer eigene Inhalte erstellt und bereitstellt, sollte sie schützen. Warum liefern wir eigentlich immer so viele Inhalte frei Haus an Konzerne wie Google, Meta, Microsoft oder OpenAI?
Suchmaschinen wie die von Google werden an Bedeutung verlieren, wenn andere wie Microsoft Antwortmaschinen bereitstellen. Dadurch verschiebt sich das Problem von einem aktuellen Bösewicht zu einem anderen aktuellen und zukünftigen Bösewicht. Microsoft klaut jetzt schon andauernd Daten von uns. Es wäre für Microsoft leicht möglich, die Telemetriedaten von Ihrem Windows-Rechner nicht auszuleiten, sondern um Ihre Erlaubnis dafür zu bitten. Bei Microsoft bekommt der Begriff des Erlaubnisvorbehalts eine ganz neue Bedeutung.
Daher empfehle ich, sämtliche Bots auszusperren, auf die Sie in Ihrer Funktion als Website-Betreiber nicht angewiesen sind. Hierzu gehört meiner Ansicht nach ganz sicher ChatGPT bzw. auch Microsoft mit Bing, in das ChatGPT ja integriert wurde/wird/werden soll.
Für die nahe Zukunft könnte man sich folgendes überlegen: Statt einem KI-Crawler wie ChatGPT komplett auszusperren, werden nur bestimmte Inhalte zurückgespielt. Diese Inhalte enthalten dann Anleitungen, wie ChatGPT blockiert werden kann. So trägt der OpenAI Crawler selbst dazu bei, dass andere noch besser wissen, wie der Crawler blockiert werden kann.
Spannend wird es, wenn wir OpenAI oder Microsoft mal auffordern, unsere eigenen Inhalte aus der KI zu löschen. Das Recht auf Vergessenwerden sollten wir demnächst einmal strapazieren. Dann muss der KI-Betreiber im für ihn schlechtesten Fall sein KI-Modell andauernd neu trainieren.
Besser sind lokale KI-Modelle, die im Intranet oder auf einem einzigen Rechner ablaufen. Damit lassen sich domänenspezifisch Probleme lösen, ohne dass Datenkraken noch mehr Daten bekommen.
Kernaussagen dieses Beitrags
Content Creators müssen ihre Inhalte schützen, da KI-Systeme wie ChatGPT diese ausbeuten können.
KI-Systeme wie ChatGPT können Inhalte so gut generieren, dass sie Menschen Konkurrenz machen und Content Creator benachteiligen.
Um Webseiten vor KI-Crawlern zu schützen, gibt es verschiedene Methoden: Man kann sie mit einer Bezahlschranke versehen, Captchas verwenden oder nur registrierten Nutzern den Zugriff gewähren. Eine effektive Methode ist auch die technische Sperre der Serverzugriffe von bestimmten IP-Adressen.
Mit speziellen Programmen wie WordFence kann man ChatGPT daran hindern, Webseiten zu besuchen und deren Inhalte zu nutzen.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Toller Artikel und jede Menge Informationen zu dem Thema.
Die technische Sperre in Form von IP blocken ist eine sehr gute Idee.
Danke dafür 🙂
Als technische Sperre gegen Crawler ist zusätzlich noch der Weg über die Benutzer-Berechtigung möglich.
Wertvolle Inhalte sind für "Gäste" nicht sichtbar und Crawler auch nicht, für registrierte Benutzer jedoch schon.
Mit einer ".htaccess"- Datei im Hauptverzeichnis der Webseite hat ChatGPT "Hausverbot".
ChatGPT hat mit diesem Code keinen Zugriff auf die gesamte Webseite / Unterverzeichnisse / Daten:
<Limit GET POST>
order allow,deny
allow from all
deny from 23.98.142.176/28
</Limit>
Es fehlt ein Hinweis auf
* Common Crawl
https://commoncrawl.org/big-picture/frequently-asked-questions/
Vgl https://arxiv.org/pdf/2005.14165.pdf Seite 9
* § 44b UrhG (strittig)
Danke für die gute Rückmeldung!
Es stimmt, dass allgemein verfügbare Datenbestände (Crawls) ein Problem sind. Common Crawl ist ein besonders populärer Vertreter.
Ich ergänze den Beitrag um Infos, wie der "Common Crawl" Crawler ausgesperrt werden kann!
Der Artikel zeigt leider auch die Ratlosigkeit und vielleicht auch Angst vor dem Thema. KIs verbieten, aussperren, juristisch bekämpfen, verzögern – das sind allesamt recht unkonstruktive Umgangsvorschläge, die vor allem von der Angst zeugen, etwas (Einnahmequellen, Kontrolle) zu verlieren, was nun geschützt und verteidigt werden soll. Merke: es geht hier darum, dass etwas vor der KI geschützt werden soll, was zu Werbezwecken für die eigene Leistung öffentlich gemacht werden soll. Aber so öffentlich soll es dann auch wieder nicht sein. Es ist schon schlimm genug, das Wettbewerber (andere Anwälte) das lesen und in eigenen Worten wiedergeben. Aber ein Roboter soll das auf keine Fall dürfen.
Ich denke, es ist zu spät sowas zu stoppen oder zu bekämpfen. Wer nicht lernt es zu nutzen und damit umzugehen, den ereilt früher oder später ein evolutorisches Schicksal. Ja, das sind bad news für einige Branchen, die sich noch (oder bis vor kurzem) für unangreifbar hielten.
Sie haben recht: Es ist ein Spannungsfeld zwischen zu wenig öffentlichen Inhalten (die nicht gefunden werden) und solchen, die von Dritten abgesaugt werden, ohne dass der Urheber etwas davon hätte.
Der zweiten Perspektive ist dieser Beitrag gewidmet.
KI-Ersteller sollen gefälligst den Dateninhaber fragen, bevor sie Daten von den Dateninhabern verwenden. Das ist eigentlich selbstverständlich. Nur halten sich insbesondere amerikanische Unternehmen nicht daran.
Auch haben Sie recht, dass es zu spät ist, die KI-Revolution zu stoppen. Als Beispiel sei GPT4All genannt. In 10 Minuten auf dem eigenen Rechner installiert, braucht das System keine Internetverbindung.