Das Training von KI-Modellen geht mit der Verarbeitung von Daten einher. Beim sogenannten Pre-Training werden nahezu unendlich viele Daten verarbeitet. Insofern ist das KI-Training im Fokus von Datenschutzbehörden und Verantwortlichen. Auch Gerichte werden diese Frage zu beurteilen haben.
Einleitung
Die Frage nach der Rechtmäßigkeit von KI-Training wird aktuell heiß diskutiert. KI beherrscht unseren Alltag immer mehr. Damit elektronische KI-Modelle leistungsfähig sein können, benötigen sie möglichst viele Beispiele zum Anlernen. Diese Beispiele werden Trainingsdaten genannt. Der Umfang der Trainingsdaten ist derart hoch, dass eine manuelle Überprüfung nicht möglich erscheint.
Das LG Hamburg beschäftigt sich gerade mit einer kniffligen Rechtsfrage, die der Fotograf Robert Kneschke aufgeworfen hat. Es geht um die Rechtmäßigkeit des Trainings eines KI-Bildmodells mit Bilddaten, die der deutsche Verein LAION aus dem Internet abgegrast hat . Dabei wurde unter anderem das Bildmaterial des Fotografen verwendet, der damit nicht einverstanden ist. LAION-Bilddaten sind in zahlreichen KI-Bildmodellen verankert (Stable Diffusion etc.), was nichts über deren Rechtmäßigkeit aussagt. In jenem Fall geht es im Wesentlichen um das Urheberrecht. Die DSGVO spielt allerdings generell auch eine Rolle (Person auf Foto, Personendaten in Texten usw.).
Aus Europa wird kein leistungsfähiges KI-Sprachmodell zu erwarten sein.
Es fehlen schlichtweg die rechtskonformen Massendaten.
Die USA haben diese Massendaten und nutzen sie zudem rechtswidrig.
Aufgrund der Aktualität und Brisanz des Themas hat der LfD Niedersachsen, Herr Dennis Lehmkemper, eine KI-Expertengruppe ins Leben gerufen. Die Gruppe trifft sich mehrmals zur Beratschlagung. Der Autor dieses Beitrags ist Teil dieser Expertengruppe, die Fragen zu KI und Datenschutz in Präsenzsitzungen erörtert.
Die erste Sitzung fand im August in Hannover statt. Das Foto zeigt die Teilnehmer.

Die Datenschutzbehörde Niedersachsen sammelt die Erkenntnisse aus den Treffen der KI-Expertengruppe und wird hieraus ein Ergebnis formulieren. Zwischenstände der Beratungen werden von der Behörde gesammelt und für das Endergebnis berücksichtigt.
Die hier dargestellten Informationen sind ausschließlich die des Autors und sind unabhängig von der Meinung Dritter. Sie geben auch nicht irgendwelche Zwischenstände wieder, sondern sind völlig losgelöst von den Besprechungen der KI-Expertengruppe.
Die Frage, was KI-Training ist, kann in Kürze wie folgt beantwortet werden:
Beim Pre-Training wird ein KI-Modell erschaffen, indem es mit Trainingsdaten angelernt wird. Das Modell kann dann allgemein verwendet werden und liefert für die Fragestellungen gute oder sehr gute Ergebnisse, die in den Trainingsdaten ausreichend abgehandelt wurden.
Beim Fine-Tuning (Post-Training) wird ein bestehendes KI-Modell in die Ausbildung geschickt und spezialisiert. Es kann dann Fragen mit speziellem Bezug besonders gut beantwortet. Oft sind die Ergebnisse dann deutlich besser als es mit ChatGPT möglich wäre! ChatGPT ist zwar laut Benchmarks das aktuell beste Sprachmodell. Es ist aber ein Generalist und kein Spezialist.
Reines Prompt-Tuning oder auch das Einstreuen von Hintergrundinformationen in einen Prompt (RAG) ist kein Training. Allerdings treten auch hierbei datenschutzrechtliche Fragen auf, die hier aber nicht diskutiert werden sollen.
Rechtmäßigkeit von KI-Training
Die Rechtmäßigkeit des KI-Trainings hängt insbesondere von den Trainingsdaten ab. Allerdings spielt auch der Ort (die Sphäre) der Datenverarbeitung eine Rolle.
Trainingsdaten
Das Fine-Tuning kann, isoliert betrachtet, leichter beurteilt werden, als das Pre-Training. Denn für das Fine-Tuning werden oft nur sehr wenige Daten benötigt. Weil spezielle Daten eingespeist werden, werden diese typischerweise zudem handverlesen. Dadurch besteht oft eine sehr gute Möglichkeit der Datenkontrolle.
Wer alle Daten kontrollieren kann, kann auch leicht oder leichter sehen, ob unter diesen Daten welche sind, die rechtlich problematisch sein könnten.
Daten sind vor allem dann problematisch, wenn sie urheberrechtlich geschützte Werke darstellen oder wenn sie personenbezogene Daten enthalten. Aber auch Daten, für die Vertraulichkeit vereinbart wurde, sind problematisch.
Das Fine-Tuning basiert auf einem KI-Modell, welches das Pre-Training bereits durchlaufen hat. Weil das Fine-Tuning damit die Trainingsdaten des Pre-Trainings mitnutzt, müssen auch diese weit umfangreicheren Trainingsdaten beim Fine-Tuning mit berücksichtigt werden.
Das Pre-Training hingegen, also der Neuaufbau eines KI-Modells, erfordert dermaßen viele Daten, dass es unmöglich erscheint, all diese Daten zu sichten. Die Datenmenge, die für ein modernes, wettbewerbsfähiges LLM benötigt wird, beginnt bei mehreren Milliarden Dokumenten Text. Je mehr Daten für das KI-Training verwendet werden, desto besser kann das Sprachmodell sein. Auch wenn hier nur von Sprachmodellen gesprochen wird, kann das Gesagte auch auf Bildmodelle oder sonstige KI-Modelle übertragen werden.
Vor allem gilt all das für generative KI-Modelle. Ein generatives Modell erzeugt eine kreative Ausgabe. Diese Ausgabe greift dabei Teile der Trainingsdaten und des Prompts (Nutzereingabe) auf. Oft entstammen die Teile, die das KI-Modell aus seinem Gedächtnis zieht, unterschiedlichen Dokumenten aus den Trainingsdaten. Nicht selten jedoch werden diese Teile einem einzigen Dokument entnommen.
So kommt es zustande, dass Zitate von beachtlicher Länge aus KI-Ausgabe entstehen. Es bedarf hierzu keiner rechtswidrigen Privacy Attacke, wie es der Hamburgische Datenschutzbeauftragte gerne hätte, um als Behörde nicht zuständig für KI jeder Art zuständig zu sein (siehe Thesenpapier des Hamburgischen Datenschutzbeauftragten). Auch stimmt eine weitere Annahme der Hamburger nicht: KI-Sprachmodelle, und andere Arten von Modellen, die auf neuronalen Netzen basieren, speichern potentiell personenbezogene Daten. Dies kann leicht nachgewiesen werden (vgl. Grundlagenbeitrag, leicht durchführbare Prompt-Experimente oder Forschungspapiere sowie Quelltext für Modelltraining und resultierendes Modell, das exakte Zitate widergeben kann).
Gibt es überraschende Ausnahmen?
Aleph Alpha hat für das neue Sprachmodell namens Pharia-1 am 26.08.2024 folgendes geschrieben:
Darüber hinaus wurden beide Modellvarianten [von Pharia-1-LLM-7B] vollständig in Übereinstimmung mit den geltenden EU- und nationalen Vorschriften, einschließlich Urheberrechts- und Datenschutzgesetzen, trainiert.
Ob dies zutrifft, muss geprüft werden. Die Qualität des Modells scheint gut zu sein, aber deutlich schlechter als aktuelle LLMs, welche bereits vor ein paar Monaten veröffentlicht wurden (vergleiche die von Aleph Alpha genannten Benchmarks). Auch andere sehen sowohl die Rechtmäßigkeit der Trainingsdaten als fraglich als auch die Qualität der Aleph Alpha Modelle. Hier ein Zitat eines Kommentators vom 30.08.2024: "Ich habe mehrfach schon versucht Aleph Alpha models in production zu verwenden (auch die closed-source models) aber ist immer katastrophal gescheitert. Leider aktuell nicht einsatzfähig für die meisten Anwendungen."
Das deutsche Urheberrecht erlaubt übrigens das KI-Training mit urheberrechtlich geschützten Inhalten, sondern der Rechteinhaber hiergegen keine Vorbehalte geäußert hat (vgl. etwa § 44b UrhG). Beim Datenschutz ist es komplizierter.
Was ist mit Anonymisierung?
Anonym sind Daten, wenn kein Rückschluss auf die originalen Personendaten möglich ist. Meist sind Daten nur pseudonym. Das bedeutet, der Datenexporteur (=ursprüngliche Datenhalter = Besitzer einer Datenbank o.ä.) könnte die Daten wieder herstellen. Anonyme Daten sind so gut wie nie anzutreffen, und wenn doch, dann sind diese Daten oft ihrer Nützlichkeit beraubt. Um eine sichere Anonymisierung zu haben, müssten die Originaldaten nach oder bei Anonymisierung gelöscht werden.
Die Anonymisierung ist ein Datenverarbeitungsvorgang. Leider muss man sagen. Somit könnten Daten nur dann anonymisiert werden, wenn eine Rechtsgrundlage für diese Anonymisierung vorliegt. Einzig das berechtigte Interesse (Art. 6 Abs. 1 lit. f DSGVO) käme hier in der Praxis in Frage. Sehr selten nur dürfte eine Einwilligung (für alle Daten!) vorliegen.
Das berechtigte Interesse scheidet für öffentliche Träger allerdings komplett aus (siehe letzten Satz in Art. 6 Abs. 1: "Unterabsatz 1 Buchstabe f gilt nicht für die von Behörden in Erfüllung ihrer Aufgaben vorgenommene Verarbeitung."). Somit können Behörden personenbezogene Daten faktisch nicht anonymisieren.
Allerdings könnte es sein, dass einige Datenschutzbehörden oder eventuell auch die DSK dies nicht so streng sehen. Problematischer sein dürfte die Tatsache, dass Daten meist nicht anonymisiert sind, sondern höchstens pseudonymisiert. Pseudonyme Daten sind allerdings laut DSGVO personenbezogene Daten (siehe Art. 4 Nr. 1 DSGVO).
Insbesondere für Behörden wäre es sinnvoll, wenn der (europäische?) Gesetzgeber einen Ausnahmetatbestand schaffen würde.
Datentransfer
Die KI-Trainingsdaten müssen für das KI-Training auf den (oder die) KI-Server geladen werden. Dort findet dann das Training der KI statt. Doch wo steht dieser Server und wem ist er rechtlich zuzurechnen?
Eine lokal betriebenes KI-Training ist aus Datenschutzsicht das Optimum. Direkt danach folgt ein KI-Server, der von einem deutschen Provider gemietet wurde und in einem deutschen Rechenzentrum steht und für den die Datenkontrolle mit einem AVV (nach deutschem Verständnis) gewährleistet ist. Hier stellt sich die Frage nach dem Datentransfer nicht wirklich.
Trainiert man ein KI-Modell in der Art eines CustomGPT, also bei OpenAI oder in der Microsoft Azure Cloud, wird die rechtliche Lage deutlich komplizierter und riskant. Trotz des Datenschutzabkommens zwischen der EU und den USA (DPF) existieren amerikanische Geheimdienste offensichtlich noch immer. Außerdem basiert das DPF zu einem Gutteil auf einem präsidialen Erlass, der jederzeit von einem zukünftigen Präsidenten zurückgenommen werden kann.
Bei Microsoft Azure stellt sich sehr die Frage nach der Datensicherheit. Dies gilt für Microsoft-Produkte und -Plattformen insgesamt. Wöchentlich sind Schreckensmeldungen zu lesen, seien es Sicherheitsvorfälle, Hacker-Angriffe, Sicherheitslücken, Microsofts eigener Datenhunger oder viel zu langsame Patches und Updates von Microsoft.
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.

Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 