Viele fordern die Regulierung von KI-Anwendungen. Massendaten zum Training von KI-Modellen sollen personenbezogene Daten idealerweise nicht mehr enthalten, auch wenn diese aus öffentlichen Quellen stammen. Das fordert beispielsweise der Bundesdatenschutzbeauftragte. Was bedeutet das für die Praxis?
Einleitung
Ein KI-Modell ist ein elektronisches Gehirn, das ein neurales Netzwerk darstellt. Die Verdrahtungen zwischen den Neuronen repräsentieren Wissen, ganz analog zum menschlichen Gehirn. Das Wissen wird eingespeist über das Einlesen von Millionen oder Milliarden von online frei verfügbaren Dokumenten. Zu diesen Dokumenten zählen insbesondere Webseiten.
In vielen dieser Texte, die in KI-Modelle einfließen, sind personenbezogene Daten vorhanden. Diese Daten landen somit in den Trainingsdaten einer Künstlichen Intelligenz. Mehr noch: Ausgaben, die ein Chatbot auf Basis dieser Trainingsdaten generiert, können diese personenbezogenen Daten ebenfalls enthalten.
Problematisch erscheint es aus Sicht mancher, wie etwa des Bundesdatenschutzbeauftragten Deutschlands, dass diese personenbezogenen Daten in KI-Modellen landen. Aus diesen Daten in KI-Modellen ergeben sich grundsätzlich mehrere Fragen:
- Ist der Dateninhaber (die betroffene Person) einverstanden damit, dass dessen personenbezogene Daten in einem bestimmten KI-Modell landen? Genauer (solange keine Einwilligungspflicht vorliegt):
- Wie kann ein Dateninhaber seine Daten gegen die Verwendung in KI-Modellen sperren (Opt-Out)?
- Wie können Daten aus einem bereits vorliegenden KI-Modell nachträglich gelöscht werden?
Aus diesen Fragen entstehen eine Reihe von Problemen in der Praxis, die nachfolgend diskutiert werden.
Wann liegen personenbezogene Daten vor?
Ob ein Datenwert personenbezogen ist oder nicht, kann sehr oft nicht oder nicht zuverlässig festgestellt werden. Ein Mensch erkennt womöglich Eigennamen von Personen oft als solche, aber ganz sicher nicht immer. Eine Maschine (KI) kann dies in noch schlechterer Weise leisten.
Direkt personenbezogene Daten, wie Namen oder Postadressen, können von Maschinen grundsätzlich nicht zuverlässig identifiziert werden.
Ob ein Kfz-Kennzeichen, eine Telefonnummer oder ein Firmenname personenbezogen sind, weiß ad hoc niemand (außer ein intimer Kenner des Kfz, der Telefonnummer oder einer Firma). Eine Maschine kann somit erst recht nicht wissen, ob „Maier GmbH“ ein personenbezogener Datenwert ist. Der Name einer GmbH ist nämlich dann personenbezogen, wenn direkt oder indirekt auf eine Person gefolgert werden kann (siehe Art. 4 Nr. 1 DSGVO). Eine Ein-Person-GmbH ist offenbar personenbezogen. Der Name einer GmbH mit 50 Mitarbeitern ist offenbar nicht personenbezogen. Wird der Name einer GmbH mit 50 Mitarbeitern aber in Zusammenhang mit einem Mitarbeiter erwähnt, der 1,98 Meter groß ist („der größte Mitarbeiter unserer Firma“), dann ist diese kombinierte Angabe aus Firmenname und Größenangabe eines Mitarbeiters als personenbezogen anzusehen.
Automatisiert können Daten in Gänze nie zuverlässig als personenbezogen oder nicht personenbezogen klassifiziert werden.
Algorithmen bergen somit immer erhebliche Unsicherheiten beim Erkennen von personenbezogenen Daten.
Insbesondere beim vorigen Beispiel wird deutlich, dass niemand und nichts Daten zuverlässig ansehen kann, ob sie personenbezogen sind oder nicht. Auch einer Telefonnummer kann niemand direkt ansehen, ob sie zu einer Person gehört oder zu einer Firma und ob die Firma aus einer Person oder mehreren besteht.
Wie können Daten gegen Verwendung in KI-Modellen gesperrt werden?
Die kurze Antwort lautet: Gar nicht. Jedenfalls ist dies der aktuelle Stand. Es gibt schlichtweg keinen Standard, um Daten auf Webseiten vor fremdem Zugriff zu schützen. Das Lesen einer öffentlichen Webseite ist offensichtlich immer möglich. Genau dies ist der Sinn einer Webseite: Sie soll einer möglichst breiten Öffentlichkeit zugänglich sein. Roboterprogramme (Crawler, Scanner) können von einem menschlichen Leser kaum unterschieden werden. Viele Webseiten haben gar nicht die Möglichkeit, dies technisch in irgend einer Weise zu versuchen. Soviel zum heutigen Stand der Technik.
Der einzige aktuell praktikabel gangbare Weg ist die Nutzung der robots.txt Datei. Diese Datei erlaubt es Webseitenbetreibern zu definieren, welche Suchmaschinen auf Ihre Inhalte zugreifen dürfen und welche nicht. Mittlerweile wird diese Datei auch von einigen KI-Anwendungen, die Inhalte abgrasen, respektiert.
Das Sperren von eigenen Daten gegen die Verwendung in KI-Modellen ist technisch nicht möglich.
Stand heute und bis auf Weiteres.
Viele KI-Anwendungen interessieren sich allerdings gar nicht für diese robots.txt Datei oder irgendwelche Ausschlusswünsche von Website-Inhabern. Weiterhin handelt es sich um Wünsche und nicht um technisch harte Definitionen. Auch wenn ChatGPT beispielsweise sagt, dass es die Wünsche einer Webseite hinsichtlich des Sperrens der Website-Inhalte gegen KI-Verwendung durch ChatGPT respektiert, ist dies eine reine Vertrauenssache. Wer OpenAI und ChatGPT noch vertraut, sollte sich die Fakten vergegenwärtigen:
- Italiens Datenschutzbehörde hat ChatGPT verboten, weil OpenAI Daten anscheinend rechtswidrig abgespeichert hat, beispielsweise Nutzereingaben.
- OpenAI hat darauf nicht etwa eine Einwilligung vom Nutzer erfragt, sondern lediglich eine Abwahlmöglichkeit (Opt-Out) angeboten.
- OpenAI wirbt nun mit ChatGPT Enterprise und dem Vorzug „Get enterprise-grade security & privacy“. Da heißt übersetzt: „Wir halten uns nur an Datenschutzregeln, wenn Sie die Enterprise Version kaufen“.
Wer Unternehmen wie OpenAI, Google oder Microsoft traut, sobald eine Meldung zur Beruhigung aufkommt, obwohl von diesen Unternehmen zuvor zahlreiches bedenkliches Verhalten an den Tag gelegt wurde, handelt jedenfalls nicht rational, sondern wunschgetrieben.
Daten von Crawling Datenbanken, wie The Pile oder Common Crawl oder C4, agieren zudem zunächst unabhängig von ChatGPT, werden dann aber von ChatGPT und anderen KI-Modellen für das Training großer Sprachmodelle hinzugezogen. So wird aus einem Problem ein mehrfaches Problem, nämlich pro Dateneinleser eines.
Wie werden Daten aus einem bestehenden KI-Modell gelöscht?
Die kurze Antwort lautet: Gar nicht. Jedenfalls gibt es bis dato kein mathematisches Verfahren, mit dem aus einem KI-Modell mit chirurgischer Präzision (oder überhaupt) Daten gelöscht werden können.
Der aktuell einzige Weg, um Daten aus einem bestehenden KI-Modell zu löschen, besteht darin, das Modell wegzuwerfen und es komplett neu zu trainieren. Beim Neutrainieren werden dann die zu löschenden Daten für das Training nicht mehr berücksichtigt.
Aus einem bestehenden KI-Modell können Daten nicht gelöscht werden.
Stand heute und bis auf Weiteres.
Klingt extrem kompliziert und teuer. Genau das ist es auch. Ein KI-Modell von null auf zu trainieren, ist insbesondere für große Sprachmodelle extrem zeitaufwändig, sehr teuer und dauert eine gefühlte Ewigkeit, selbst auf riesengroßen Serverfarmen. Ein KI-Server verbraucht sehr viel Strom und ist sehr teuer, weil er mindestens eine sehr teure oder mehrere teure Grafikkarten gleichzeitig nutzt, um die ansonsten extrem langwierigen Berechnungen in akzeptabler Zeit ableisten zu können.
Eine pragmatische, aber unschöne Möglichkeit, Daten aus einem KI-System wenigstens offiziell herauszubekommen ist, die Antwort des KI-Modells durch einen Filter zu jagen. Der Filter entfernt dann alle Vorkommnisse eines bestimmten Personennamens oder einer Telefonnummer. Allerdings ist dies nicht zuverlässig möglich. Zudem sind Daten auch dann vorhanden, wenn sie im Modell sind, aber nicht als Antwort ausgegeben werden. Analog ist es mit der E-Mail eines ehemaligen Kontaktes, der seine Daten gelöscht wissen wollte, die Daten aber nicht gelöscht wurden. Bei der nächsten Kontrolle durch eine Aufsichts- oder Strafverfolgungsbehörde, die zugegebenermaßen nur selten vorkommen dürfte, oder beim nächsten Datenleck aufgrund eines Hackerangriffs wird das Dilemma dann für alle sichtbar.
Was ändert sich durch KI eigentlich?
Suchmaschinen geben schon seit längerem auch Antworten aus eingelesenen Inhalten. Diese Antworten sind sicher auch des Öfteren nicht vereinbar mit Tatsachen. Hierüber hat sich jedenfalls noch keine Datenschutzbehörde aufgeregt, soweit bekannt.
KI-getriebene Chatbots können Antworten in neuer Form geben, was als abstraktiv bezeichnet wird. Anstelle eines Zitats erhält der Nutzer einen Text in neuen Worten. Hierbei können besonders leicht Fehl- oder Falschangaben entstehen.
In sozialen Medien ist allerdings die Anzahl der Falschangaben zulasten von Personen sicher auch nicht gerade niedrig. Insofern kann die speziell wegen KI entstandene Aufregung nicht ganz nachvollzogen werden. Aktuelle Äußerungen gehen ein bisschen in Richtung Aktionismus.
Zur Ehrenrettung vieler sie angemerkt, dass das Unbekannte ("die KI") anscheinend viele so in die redliche Besorgnis treibt, dass diese unbedingt etwas dagegen tun möchten. Dass daraus Wünsche entstehen, die nicht umsetzbar sind, ist analog zum § 26 TDDDG, der allerdings von Lobbyisten ins Gesetz diktiert wurde.
Die Kontrolle über eigene Daten
Faktisch hat niemand die technische Kontrolle über die eigenen Daten, sobald sie in fremde Hände gelangen können, beispielsweise durch Veröffentlichung auf einer Webseite oder durch Nutzen/Bereitstellen der Daten auf einer Social Media Plattform.
Wahrscheinlich meint der Bundesdatenschutzbeauftragte mit der Kontrolle über die eigenen Daten gegen die Verwendung in KI-Modellen spezifische Plattformen, auf denen eine Person als Dateninhaberin ein Konto besitzt. Dieser Fall ist zwar relevant und wichtig, hat aber nichts mit KI speziell zu tun. Selbstverständlich sollten alle persönlichen Daten nur nach DSGVO verarbeitet werden, egal ob durch eine KI oder anderswie.
Zusammenfassung
Personenbezogene Daten können nicht zuverlässig als solche identifiziert werden. Weder einem Menschen gelingt dies noch einer Maschine. Dies wird bis in alle Ewigkeit so bleiben, außer, die Definition von Art. 4 Nr. 1 DSGVO, die definiert, was personenbezogene Daten sind, wird sich ändern.
Daten können nicht gegen die Verwendung in KI-Modellen gesperrt werden. Dieses Problem wäre rein rechtlich lösbar. Technisch ist es nie sicher lösbar. Vielmehr müsste man sich darauf verlassen, dass Crawler die Vorgaben (Wünsche!) einer Webseite respektieren. Da ist es fast sicherer, sich auf Microsoft zu verlassen, trotz der massiven Sicherheitslücken, die das Unternehmen erzeugt, ignoriert und heruntergespielt hat.
Künstliche Intelligenz kann nicht zufriedenstellend reguliert werden, so nachvollziehbar der Wunsch auch ist.
Wünsche verändern objektive Grenzen der Wirklichkeit nicht.
Daten können nicht aus bestehenden KI-Modellen gelöscht werden. Dieses Problem könnte theoretisch lösbar sein. Als wahrscheinlicher erscheint es, dass KI-Modelle demnächst „einfach“ neu berechnet werden, sobald die Hardware bzw. Grafikkarten-Chips (GPUs) noch viel schneller und noch viel günstiger geworden sind.
Fazit
Der Wunsch nach Regulierung von KI ist verständlich. Er führt aber zu Forderungen, die unerfüllbar und praxisfern sind. Ob dies in Kauf genommen wird, um den Eindruck zu erwecken, politische Pflichten zu erfüllen oder ob es Unkenntnis ist, sei dahingestellt.

Eine Künstliche Intelligenz verhält sich an sich wie ein Mensch. Menschen sind üblicherweise unzuverlässig. Das merkt man spätestens bei der nächsten Terminvereinbarung. Auch sogenannte Experten kommen oft zu falschen oder schlechten Ergebnissen. warum sollte es bei einem Computerprogramm, welches die Intelligenzfunktion des Menschen nachbildet, anders sein?
Anstatt allgemeine unerfüllbare Forderungen zu stellen, könnten zuerst sehr große Firmen ausgiebig unter die Lupe und konsequent, schnell und schmerzhaft sanktioniert werden. Aus den gewonnenen Erkenntnissen können dann weitere Maßnahmen abgeleitet werden.
Unabhängig von der Art zukünftiger Marktverhaltensregeln sei angemerkt, dass sich die enormen Potentielle, egal ob positiv oder negativ, von KI-Anwendungen nicht mehr aufhalten lassen. Jeder kann jederzeit unter seinem Schreibtisch ein KI-Modell errichten oder ein bestehendes herunterladen und nutzen. Es wäre ausgesprochen kontraproduktiv, wenn diese KI-Modelle von der ganzen Welt genutzt werden dürften, außer in Deutschland oder der EU.
Kernaussagen dieses Beitrags
KI-Modelle lernen aus riesigen Datenmengen, die oft persönliche Informationen enthalten können. Das ist problematisch, weil es unklar ist, ob Menschen diese Nutzung ihrer Daten erlauben wollen.
Daten können aus KI-Modellen nicht zuverlässig gelöscht werden, was zu Datenschutzproblemen führen kann.
Der Wunsch nach Regulierung von KI ist verständlich, führt aber zu Forderungen, die unrealistisch und unpraktisch sind.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server


gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Lieber Herr Dr. Meffert,
Frage: Wie ist das mit den Bildrechten, wenn man ein Bild von einer KI erzeugt hat.
Muss man Rechte beachten und die Quelle nennen und wenn ja, wie?
Ich freue mich auf Ihre Antwort.
Ihr M.
Anmerkung der Redaktion: Name und Mail bekannt, Anonymisierung in diesem Kommentar wurde erbeten, der Fragende erhielt Antwort per Mail, die auch folgend wiedergegeben ist.
Zu unterscheiden sind zwei Stufen:
1. Trainingsdaten der KI
Mit welchen Bildern wurde die KI gefüttert? Aktuell ist die Sachlage unklar, ob die populären StableDiffusion-Verfahren, die wohl allesamt auf dem LAION-Datensatz (deutscher Verein!) mit fast 6 Milliarden Bildern aus dem Internet basieren, alle diese Bilder für das Training verwenden dürfen.
Die Annahme ist, dass dies erlaubt ist. Ich gehe auch davon aus.
Also ist der 2. Schritt zu prüfen:
2. Ergebnis der KI
Die von einer KI erzeugten Bilder unterliegen dem gleichen Regime wie Bilder, die Sie oder ich erzeugen/malen/anfertigen.
Sie müssen aufpassen, keine Bilder zu erzeugen, die zu ähnlich denen anderer Urheber sind. Es gibt aber Ausnahmen: Gemeinfreie Werke. Darunter fallen auch Werke von Künstlern, die mindestens 50 bis 70 Jahre lang tot sind, wie etwa die Mona Lisa.
Es ist hier egal, ob Sie das Bild selbst erstellt haben oder ob es komplett durch eine KI erstellt wurde oder ob Sie ein Bild durch eine KI haben erzeugen lassen, welches Sie danach nachbearbeitet haben.
Wichtig ist, dass "Ihr" Werk nicht zu ähnlich den Werken anderer Urheber ist.
Urheber ist der Erschaffer eines Werkes. Sie werden automatisch zum Urheber, wenn Sie ein schützenswertes Werk erstellen, das unterschiedlich genug zu anderen Werken ist. Schützenswert ist alles ab einer Mindestschöpfungshöhe. Ein Bild eines Vierecks (4 Linien) oder eines klassischen Strichmännchens (ohne Schnickschnack) ist nicht schützenswert.
Fazit: Bild der KI muss neuartig sein, dann dürfen Sie es nutzen. Ein Restrisiko gibt es immer, da Sie unmöglich alle Werke der Welt überprüfen können und die Trainingsdaten der KI nicht kennen. Dieses Risiko nehmen aber viele in Kauf, etwa ich. Sollte tatsächlich mal (aus Versehen) eine Urheberrechtsverletzung begangen worden sein und der Urheber möchte Geld haben, kann man immer noch schauen, ob der Urheber eine datenschutzkonforme Webseite hat und sich so vergleichen. Vorausgesetzt, man selbst hat eine datenschutzkonforme Webseite.