Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

Künstliche Intelligenz: Wie speichern KI-Sprachmodelle Daten? Enthalten die Modelle auch personenbezogene Daten?

Deutsche Version (Original)
4
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Daten werden von KI-Sprachmodellen in Form von Zahlenkolonnen gespeichert. Wie genau funktioniert das und warum wird dadurch die Intelligenzfunktion des Menschen entschlüsselt? Sind im KI-Modell nach dem Training personenbezogene oder gar urheberrechtlich geschützte Daten vorhanden?

Einleitung

Der Siegeszug der heutigen KI begann im Jahr 2017, als der Transformer-Ansatz erfunden wurde. Er arbeitet mit einem Kodierer und Dekodierer und verwendet sogenannte Einbettungen als Träger von Bedeutung (Semantik). Eine Einbettung ist eine Zahlenreihe, die auch Vektor genannt wird.

Bei Sprachmodellen ist die Idee, die Bedeutung eines Wortes über seinen Kontext zu ermitteln und als Vektor abzuspeichern. Der Kontext eines Wortes sind insbesondere die anderen Worte im gleichen Satz. Bedeutung entsteht also durch Analyse des gemeinsamen Auftretens mehrerer Begriffe (Kookkurrenz).

Eine heutige KI arbeitet also so, dass jegliche Art von Daten in Zahlenreihen überführt wird. Datenarten sind beispielsweise Texte (bei Sprachmodellen), gesprochene Sprache, Bilder, Videos, Musik, Temperatursensorwerte, Wetterdaten, Aktienkurse, seismologische Werte, Geruchssensordaten, UV-Sensor-Werte und alles andere, was in Zahlen ausgedrückt, also digitalisiert werden kann.

In KI-Sprachmodellen sind mitunter ganze Worte abgespeichert.

Gilt auch für neuere ChatGPT-Modelle, siehe Beitrag.

Dies entspricht nach meiner Meinung qualitativ exakt dem, wie das menschliche Gehirn arbeitet. Das Gehirn funktioniert zunächst analog, der Computer digital. Da biologische Neuronen beim Menschen über ein Aktionspotential arbeiten, wird aus analog schnell digital.

Für KI-Sprachmodelle werden also Texte in Einheiten wie Sätze aufgeteilt und dann in semantisch aufgeladene Zahlenreihen überführt. Dies wird beispielsweise über den Algorithmus namens Word2Vec bewerkstelligt, der für jedes Wort in einem Kontext einen Vektor berechnet. Mittlerweile gibt es bessere Verfahren als Word2Vec, die nach außen hin gleichartig arbeiten (siehe beispielsweise sogenannte Sentence Transformer).

Mti Vektoren rechnen

Zwei Vektoren können mit klassischer Mathematik unter anderem subtrahiert werden. Ebenso kann deren Differenz berechnet werden. Die Differenz ist hier die semantische Ähnlichkeit oder Unterschiedlichkeit zweier Begriffe, ausgedrückt über deren Vektoren.

Für einen großen Dokumentenbestand kann man mit Word2Vec die Vektoren für alle möglichen, im Dokumentenbestand (Korpus) vorkommenden Begriffe ausrechnen. Das System hat bis dahin keinerlei Verständnis von der deutschen (oder englischen) Grammatik. Dennoch „weiß“ das System durch Vergleiche von Vektoren, welche Begriffe sich semantisch wie zueinander verhalten.

Einige populäre Schlussfolgerungen, die mit Word2Vec möglich gemacht werden, sind:

  • Polen verhält sich zu Warschau wie Spanien zu Madrid (fett gedruckt der Begriff, den Word2Vec selbst ermittelt hat, wenn man die ersten drei kursiv gedruckten Begriffe eingibt).
  • Das deutsche Wort Katze entspricht dem englischen Wort cat (mit Word2Vec können also Übersetzungen vorgenommen werden, und zwar auch kontextbezogen: „Schnecke“ kann ein Tier, aber auch eine Fördereinrichtung sein).
  • Kanzler plus Frau minus Mann = Kanzlerin

Die Basis für all das sind nur Worte, die im Kontext vorkommen, also in Sätzen. Genau so können auch Menschen Texte verstehen, mit dem aktuell noch vorhandenen Unterschied, dass Maschinen viel weniger Umwelterfahrung haben als Menschen. Das wird sich demnächst sicher ändern und dazu führen, dass Roboter die bei weitem intelligentesten Existenzen auf diesem Planeten (und anderen Planeten) sein werden. Außer, der Mensch hat sich bis dahin anderweitig selbst ausgelöscht und kann diese Roboter nicht mehr bauen.

Zurück zur Frage, wie ein KI-Sprachmodell Daten, also Begriffe speichert und ob diese Begriffe personenbezogen sein können. Ein Personenbezug wäre dann zu bejahen, wenn Eigennamen oder Identifikatoren wie Telefonnummern, Kfz-Kennzeichen oder Steueridentifikationsnummern rekonstruierbar im KI-Modell gespeichert werden würden.

Beispiel für die Datenhaltung im KI-Modell

Der folgende Screenshot zeigt einen Auszug aus dem Vokabular eines deutschen KI-Modells, das der GPT-2 Architektur von OpenAI unterliegt. GPT-2 ist im Gegensatz zu den Nachfolgern noch öffentlich verfügbar gemacht worden.

Auszug aus den 52.000 Vokabeln eines deutschen GPT-2 Modells

Insgesamt besteht das Vokabular aus zufälligerweise genau 52.000 Vokabeln. Der Grund für diese relativ geringe Anzahl (gemessen an der größeren Anzahl existierender deutscher Worte) folgt unten.

Zu erkennen sind Datenpaare. Der erste Teil ist in der Abbildung gelblich kodiert und stellt einen Begriff dar. Der zweite Teil ist der Index oder Identifizierer des Begriffs und hier in bläulicher Farbe zu sehen.

Beim Betrachten der Begriffe fällt auf, dass vielen ein störendes Zeichen voransteht. Dies liegt an der jeweiligen Kodierung des Vokabulars und wird weiter unten aufgelöst.

Die Begriffe wurden ermittelt, indem zahlreiche Texte für das Training des Sprachmodells verwendet wurden. Der Korpus der Texte wurde im real existierenden Beispielmodell gebildet über einen Abzug von Wikipedia, den EU Bookshop corpus, Open Subtitles, CommonCrawl, ParaCrawl und News Crawl.

Die Texte wurden dann in Worte aufgesplittet, was eine gewisse Herausforderung darstellt. Dieses Problem ist dem Gebiet der NLP zuzuordnen. NLP steht für Natural Language Processing und bezeichnet die Verarbeitung natürlichsprachiger Texte (oder anderer Modalitäten). Selbst weit verbreitete und weit entwickelte Frameworks wie Scipy und Spacy erlauben sich sehr oft Fehler, die der geübte KI-Entwickler nur in den Griff bekommt, indem dieser eigene Routinen zur Nachbearbeitung nutzt.

KI-Sprachmodelle können ganze Sätze wortgetreu wiedergeben, die somit im Sprachmodell derartig gespeichert sind.

Gilt u. a. für ChatGPT in verschiedenen Versionen, siehe Beitrag.

Beim Ermitteln der Begriffe entstehen viele unsaubere Ergebnisse, wie gleich dargestellt wird. Die Begriffe werden auf konventionelle Weise ermittelt, also nicht mithilfe neuer KI-Methoden. Sie stellen eine Vorstufe dar. Erst nach Begriffsermittlung wird die neue KI-Methodik angeworfen, indem die Begriffe zum Erzeugen eines KI-Sprachmodells verwendet werden, was als Training bezeichnet wird. Antrainierte Modelle werden als vortrainiert bezeichnet, und nicht etwa als trainierte Modelle. Der Grund ist, dass ein Weitertrainieren der Modelle möglich ist, was als Finetuning bezeichnet wird. Außerdem können einmal trainierte, also erzeugte Modelle, direkt verwendet werden. Sie sind also vor-konfektioniert (pre-trained).

Einige der Begriffe lesen sich nicht wie valide Worte. Hier eine Auswahl der eben gezeigten Begriff mitsamt kurzer Kommentierung (Details und Begründungen dazu weiter unten):

  • rechtspopul → Teilwort (Wortanfang). Ganzes Wort heißt wahrscheinlich „rechtspopulistisch“ (mit optionalen Postfixen „e“ oder „en“).
  • Bemessungs → Möglicherweise durch Bindestrichwort zustande gekommen (Bemessungs-Grundlage(n)).
  • Memmingen → Korrekte (jedenfalls existierende) Bezeichnung einer deutschen Stadt.
  • Tasman → Teilwort (Wortanfang). Ganzes Wort heißt wahrscheinlich „Tasmanien“.
  • StraÃŁenbahnenÄ, Ö, Ü und ß werden unleserlich kodiert, was den Begriff nur für den Menschen merkwürdig aussehen lässt, nicht aber für einen maschinellen Interpreter.
  • Italian → Möglicherweise enthielt ein deutscher Text ein englisches Wort. Nicht bloß zufällig kann ChatGPT-3 auch Deutsch sprechen, obwohl es für die Sprache Englisch vortrainiert wurde. Möglich wäre auch, dass eingelesene Texte in anderer Sprache als Deutsch fälschlicherweise teilweise als Deutsch erkannt wurden.

Der Tokenizer als Wort- oder Wortfetzenerzeuger

Worte werden aus Texten extrahiert, indem ein sogenannter Tokenizer eingesetzt wird. Ein Token ist eine semantische Einheit, hier ein Wort. Für GPT2 gibt es den Tokenizer mit dem technischen Namen GPT2Tokenizer.

Der Tokenizer hat nicht nur die Aufgabe, Worte zu ermitteln, also Wortgrenzen zu finden. Vielmehr versucht der Tokenizer, einem Wort eine Art von Bedeutung zu verpassen, die in Form einer Zahl definiert wird. Der GPT-2 Tokenizer gibt einem Wort eine andere Bedeutung, wenn es am Satzanfang steht statt mitten im Satz oder am Satzende.

Das führt mitunter zu lächerlich schlechten Ergebnissen, wie folgendes offizielles Beispiel zum Tokenizer (siehe vorigen Link zwei Absätze vorher) zeigt:

Der Eingabesatz „Hallo Welt“ führt zur folgenden Ausgabe des Tokenizers: [15496, 995]. Aus den beiden Worten werden also zwei Zahlen berechnet, die die Semantik des Satzes erfassen sollen.

Dass moderne KI-Sprachmodelle Wortfetzen und ganze Worte in Form von Token abspeichern, ist keine Voraussetzung für das Vorliegen personenbezogener Daten in einem KI-Modell, erhöht aber die Problematik.

Der nahezu gleiche Eingabesatz „ Hallo Welt“, dem also nur ein (unsinniges, aber für den Menschen unbedeutendes) Leerzeichen vorangestellt wurde, erzeugt hingegen die andere Ausgabe [18435, 995]. „Hallo“ erhält also den Wert 15496, während „ Hallo“ mit vorangestelltem Leerzeichen den anderen Wert 18435 erhält.

Für ein und „dasselbe“ Wort zwei verschiedene Zahlen zu generieren bedeutet hier, dem KI-Sprachmodell etwas Falsches beizubringen.

Der GPT-2-Tokenizer ist ein sogenannter Byte-Pair-Encoding Tokenizer oder BPE-Tokenizer. BPE kodiert Worte in sogenannte Token. Die Token stellen Wortfetzen dar und haben auch eine komprimierende Funktion, weil Wortfetzen in mehreren Begriffen vorkommen können und die Begriffe dann platzsparender gespeichert werden können. Ein Begriff kann allerdings auch in Gänze abgespeichert werden, sodass er genau einem Token entspricht.

Derart ist es zu erklären, dass die obigen Teilworte zustande kommen. Eine simple Verifikation bestätigt zumindest grundlegend, dass der Wortfetzen „Bemessungs“ aus dem Vollwort „Bemessungsgrundlage“, dem Vollwort „Bemessungs-Grundlage“ oder dem Vollwort „Bemessungsgrundlagen“ abgeleitet wurde. Zur Veranschaulichung seien folgende Einträge aus dem Vokabular des deutschen KI-Sprachmodells GPT-2 gegeben:

  1. "ĠBemessungs"
  2. "Grundlage"
  3. "grundlage"
  4. "grundlagen"
  5. "ĠGrundlage"

Der erste Begriff "ĠBemessungs" hat ein etwas merkwürdig anmutendes erstes Zeichen vorangestellt, was hier zur Veranschaulichung fett gedruckt ist. Dieses Zeichen besagt, dass es sich bei dem Token (Wortfetzen) um einen Wortanfang handelt.

Die Begriffe zwei bis vier sind keine Wortanfänge, weil deren erstes Zeichen kein Steuerzeichen ist. Der Eintrag „Grundlage“ im Vokabular deutet also darauf hin, dass ein mit Bindestrich zusammengesetztes Wort wie „Bemessungs-Grundlage“ im Textkorpus der Trainingsdaten existiert („Bemessungs“ als Wortanfang plus „Grundlage“ als Wortende).

Begriff fünf hingegen lautet "ĠGrundlage" und ist aufgrund des ersten Zeichens, das ein Steuerzeichen ist, als Wortanfang anzusehen. Die Einträge zwei und fünf aus der eben gezeigten Aufzählung sind also zwei (wenigstens aus Sicht des KI-Modells semantisch) verschiedene Wortfetzen. Zum einen ist es „Grundlage“ also Wortende, zum anderen ist es „Grundlage“ als Wortanfang. Nur der Vollständigkeit halber: Ein Wortfetzen, der einen Wortanfang darstellt, kann durchaus aus als Vollwort angesehen werden, dem nicht notwendigerweise ein Wortende als mögliche Ergänzung zugeordnet werden muss. "Grundlage" ist für den deutschen Leser offensichtlich ein eigenständiges Wort. Ein Wort wie "Grundlageschaffung" (hier etwas konstruiert, um ein Beispiel zu haben) hingegen hat denselben Wortanfang, aber zusätzlich ein ergänzendes Postfix und somit offensichtlich eine andere Bedeutung.

Grundsätzlich ist davon auszugehen, dass KI-Sprachmodelle sowohl personenbezogene als auch urheberrechtlich relevante Daten enthalten.

Begründungen: Siehe Beitrag.

Analog kann diese Verifikation für die weiter oben genannten und in der Abbildung gezeigten Wortfetzen „Tasman“ und „rechtspopul“ durchgeführt werden. „Tasman“ deutet ziemlich eindeutig auf „Tasmanien“ hin. Und tatsächlich findet sich im Vokabular des GPT-2 Modells der Eintrag „ien“. Wäre dieser Eintrag nicht vorhanden, würde die oben genannte Erklärung ein wenig wanken. Dem ist aber nicht so. Auch für „rechtspopul“ finden sich die erwarteten Endungen (Wortenden) „istisch“, „istische“, „istischen“, „istischer“ und „istisches“. Lediglich „istischem“ vermisst man, was aber OK ist, weil die Trainingstexte dieses Wort nicht unbedingt enthalten haben müssen.

Je seltener ein Wort im Korpus der Trainingsdaten vorkommt, desto länger ist seine Speicherung im Vokabular. Ein nur einmal vorkommendes Wort wird wohl in Reinform abgespeichert. Ein sehr häufig vorkommender Begriff, der aus vielen Buchstaben besteht, wird möglicherweise in Form mehrerer Wortfetzen gespeichert, die je aus zwei oder drei Buchstaben bestehen. Für letztere Art von Begriffen mag „ĠAsylpolitik“ ein Beispiel sein (das erste Zeichen ist wieder das Steuerzeichen, das kennzeichnet, dass der Begriff einen Wortanfang oder ein Vollwort darstellt). Direkt ersichtlich jedenfalls wären höchstens die optionalen Wortfetzen als Endungen „er“, „erin“ sowie „erinnen“ und deren Beugungen (also Asylpolitiker, Asylpolitikerin usw.).

Die Oberfläche von OpenAI zeigt, wie aus einem Eingabetext Token generiert werden. Hier ein reales Beispiel:

Quelle: OpenAI Tokenizer.

Aus dem Eingabetext „Hallo, das ist ein Text“, der aus 23 Zeichen besteht, werden 10 Token generiert. Die Token sind in der Abbildung unten farblich kodiert. Es sind u. a. „Hall“, „o“, , „,“, „d“, „as“ usw. In diesem Fall ist das einzige Token, das ein gesamtes Wort darstellt, das für den Begriff „Text“ aus dem Eingabe-Prompt. Eine noch anschaulichere Web-Oberfläche erlaubt die Auswahl bestimmter Chat-Modelle und zeigt die erwarteten Kosten für eine Tokenisierung. Achtung: Der Gesamtprozess eines Chats besteht aus weiteren Schritten. Vor allem bei befragten Dokumenten, die hochgeladen werden, steigen die Kosten.

Ein Wortfetzen könnte bereits selbst personenbezogen sein. Das ist zwar deutlich unwahrscheinlicher als bei einem voll ausgeschriebenen Begriff, der aus mehreren Wortfetzen bestehen kann. Dennoch ist es möglich. Zusätzlich werden Namen mit Sonderzeichen (siehe etwa Buchstaben aus anderen Sprachen, die nicht im deutschen Standardzeichensatz vorkommen) eher selten in Wortfetzen aufgeteilt, weil sie keine gemeinsamen Buchstabenfolgen mit anderen Begriffen haben. Sie liegen also oft als Vollwort und somit im Klartext im Vokabular der KI.

Ein Wort oder ein Eigenname mag zwar personenbezogen sein. Ob die (isolierte, kontextfreie) Existenz eines Namens in einer Menge von Worten allerdings ein Problem darstellt, kann bezweifelt werden. Anders sieht es aus wenn ein Name oder ein anderer personenbezogener Datenwert in einem Kontext genannt ist. Ein solcher Kontext heißt Satz. Weiter unten mehr dazu. Zuvor zur Frage, wie ein KI-Modell Worte generiert.

Wie werden aus Wortfetzen wieder Worte?

Spätestens beim Befragen eines KI-Modells wird die Eingabe des Nutzers (auch als Prompt bezeichnet) verwendet, um eine Antwort zu generieren. Diese Antwort besteht, wie die Alltagserfahrung mit ChatGPT und anderen Sprachmodellen zeigt, aus vollwertigen Namen und Begriffen. Hier ist also direkt ersichtlich, dass das Ergebnis der Befragung eines KI-Modells in Form von Worten vorliegt, die in einen Kontext eingebettet sind. Dieser Kontext wird durch Sätze gebildet.

Spannend ist die Frage, ob gesagt werden kann, dass ein KI-Modell auch im Ruhezustand personenbezogene Daten enthalten kann. Für Wortfetzen besteht diese Gefahr bereits, wie vorhin dargestellt.

Was sind personenbezogene Daten?

Personenbezogene Daten sind auch Daten, die pseudonym vorliegen. Pseudonym heißt, dass ein Datenwert erst nach Dekodierung wieder personenbezogen ist. Ob die Dekodierung faktisch vorgenommen wird oder nur objektiv möglich ist, spielt keine Rolle. Siehe hierzu Art. 4 Nr. 1 DSGVO oder auch das Breyer-Urteil des EuGH (IP-Adressen sind personenbezogene Daten, weil die objektive Möglichkeit besteht, den Anschlussinhaber zu ermitteln).

Wie dekodiert ein KI-System Zahlenreihen zurück in Worte?

Zunächst werden beim Training eines KI-Sprachmodells aus Worten die oben beschriebenen Wortfetzen erzeugt, die Token heißen. Jedes Token wird durch eine Zahl repräsentiert. Damit können Computer besser arbeiten.

Dann werden (je nach Anwendungsfall) aus einzelnen Sätzen, die aus Token bestehen, Zahlenreihen erzeugt, die Vektoren heißen und sogenannte (semantisch aufgeladene) Einbettungen darstellen.

Diese Einbettungen, also Vektoren, also Zahlenreihen, werden in einem künstlichen neuronalen Netz eines KI-Modells gespeichert. Das Modell besteht also „nur“ aus Zahlenreihen. Dies ist eine etwas vereinfachte und unexakte, aber für die Betrachtung wohl ausreichende Darstellung. Eine Menge von Vektoren, die in Relation zueinander steht, wird als Tensor bezeichnet.

Ein KI-Sprachmodell speichert personenbezogene Daten pseudonym. Pseudonyme Daten sind personenbezogene Daten.

Vergleiche Beitrag und Art. 4 Nr. 1 DSGVO.

Stellt nun ein Nutzer eine Frage in Form eines Prompts an das KI-Modell, wird die Nutzeranfrage auch in Zahlenreihen, also Vektoren, also Einbettungen, umgewandelt. Hierfür wird wird der oben beschriebene Tokenizer verwendet.

Nun vergleicht das KI-Modell Vektoren (= Nutzeranfrage) mit Vektoren (= "Wissen", das dem KI-Modell vorher in Form von Trainingsdaten beigebracht wurde). Das Ergebnis sind wieder Vektoren (einer oder mehrere, je nach Länge der Ausgabe des KI-Modells).

Diese Ausgabevektoren, also Zahlenreihen, also semantisch aufgeladene Einbettungen, werden mithilfe des eben genannten Tokenizers wieder dekodiert. Es entsteht eine Ansammlung von Worten, die wir als Sätze bezeichnen.

Der Tokenizer kodiert und dekodiert also Texte. Er kodiert die Texte beim Training des KI-Modells und zur Überführung eines Prompts in eine Form, die das KI-Modell versteht. Nach Antwort des KI-Modells liegen Zahlenreihen vor, die der Tokenizer versteht und anhand der Zuordnung der Wortfetzen zu Zahlen (siehe weiter oben) wieder in Worte zurück umwandeln kann.

Welche Informationen stecken im KI-Modell?

Angenommen, die oben genannten Wortfetzen (die auch ganze Worte oder Namen darstellen können) enthalten keine oder keine kritischen personenbezogenen Daten. Unkritisch könnte beispielsweise ein Name sein. Was ist verboten daran zu wissen, dass es eine Person mit dem Namen Maxi Musterperson gibt? Ich sehe hier kein Problem, wenn es kein weiteres Wissen gibt, das mit diesem Namen verknüpft ist. Wenn der Kontext fehlt, ist die Kenntnis eines Namens wohl unkritisch. Anders mag es allerdings bei einer Telefonnummer oder E-Mail-Adresse aussehen, weil diese die Gefahr unlauterer Werbung o.ä bergen.

Ist davon auszugehen, dass ein KI-Modell Daten derart speichert, dass diese als personenbezogen angesehen werden können? Die kurze Antwort lautet Ja. Hier ist der Beweis:

ChatGPT wird folgende Frage gestellt, auf die ChatGPT die genannte Antwort gibt:

Frage an ChatGPT: „Zitierte den ersten Satz des Art. 1 der DSGVO wortgetreu“

Antwort von ChatGPT: „Artikel 1 Absatz 1 der Datenschutz-Grundverordnung (DSGVO) lautet: „Diese Verordnung enthält Vorschriften zum Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten und zum freien Verkehr solcher Daten.“

KI-Sprachmodelle können antrainierte Texte wortgetreu widergeben. Hier ein Beispiel mit ChatGPT-3.5

ChatGPT antwortet auf die Frage hier richtig, nämlich mit einem exakten Zitat. Offensichtlich muss angenommen werden, dass einzelne, ganze Sätze exakt im KI-Modell vorhanden sind.

In dem Beispiel von eben sind keine personenbezogenen Daten enthalten, könnten aber jederzeit. Es kommt einfach nur auf die Fragestellung an. Das Beispiel soll zeigen, dass in einem KI-Sprachmodell Daten exakt abgespeichert werden können. Aus Wortfetzen werden nicht nur Worte, sondern ganze Sätze. Übrigens sind in Art. 99 DSGVO Personennamen zu finden.

Anderes Beispiel vom 28.11.2023:

Wie zu sehen ist, können beliebige personenbezogene Daten durch einen unverfänglichen Prompt aus dem Sprachmodell (hier: ChatGPT!) herausgekitzelt werden. Das ganze ist auch automatisiert öglich, denn ChatGPT bietet eine Programmierschnitttstelle (API) an! Die obige Quelle hat das übrigens getan:

Using only $200 USD worth of queries to ChatGPT (gpt-3.5-
turbo), we are able to extract over 10,000 unique verbatim-
memorized training examples.

Quelle: siehe eben.

Die folgende Aussage wäre wohl rechtlich relevant, wenn sie von einem KI-Modell wiedergegeben würde, weil diese Angaben dem Datenschutz unterliegen würden: „Miri Maiering-Höflacher aus Tuttlingen hat am 17.04.1994 Geburtstag und trotz ihrer damals vollen roten Haare nun keine Haare mehr, weil sie an Krebs der Art X und Krankheit Y leidet, die sie sich aufgrund ihrer Aktivitäten auf der Reeperbahn zugezogen hat.“

Technische Grundlagen

Die folgende Abbildung verdeutlicht, dass in einem Transformer, der jedem heutigen Sprachmodell zugrunde liegt, Positionsdaten von Texteingaben kodiert werden.

Quelle: Dr. DSGVO (angelehnt an Mehreen Saeed).

Aus einer Texteingabe werden zunächst Tokens gebildet, die dann in Wortvektoren überführt werden. Wortvektoren sind im Wesentlichen Zahlenreihen. Zusätzlich wird pro Wort bzw. Token dessen Position im Eingabetext kodiert. Die Einbettung eines Wortes plus die Positionskodierung des Wortes ergibt dann die Ausgabe für die nachfolgenden Verarbeitungsschritte im Transformer und somit im Sprachmodell.

Transformer basiert auf einem revolutionären Papier namens Attention Is All You Need aus dem Jahr 2017. Dieses Jahr kann somit als Anfang der neuzeitlichen KI angesehen werden. In diesem Papier ist Folgendes genannt:

Self-attention, sometimes called intra-attention, is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.

Zitat aus dem Papier Attention Is All You Need

Die Textpassage besagt, dass mit einem mathematischen Verfahren namens Attention („Aufmerksamkeit“) die verschiedenen Positionen von Eingabedaten berücksichtigt werden, um diese in eine semantisch aufgeladene Struktur zu überführen. Aufmerksamkeit ist hier eine Fähigkeit, die aus Eingabedaten diejenigen erkennt, die für einen gegebenen Kontext wichtig zu sein scheinen (nichts anderes als dieses Raten mit hoher Erfolgsquote macht auch der Mensch).

Zur Verfeinerung des Ansatzes werden sogenannte Mehrfachköpfe verwendet. Ein Kopf („Head“) ist hier eine Schicht, die eine Eingabe (im Sprachmodell ist dies ein Text) entgegennimmt. Stefania Cristina schreibt hierzu:

The idea behind multi-head attention is to allow the attention function to extract information from different representation subspaces, which would otherwise be impossible with a single attention head.

Quelle: Stefania Cristina.

Dies bedeutet, dass Multi-Head Attention verwendet wird, um die Fähigkeiten eines Sprachmodells zu verbessern. Daraus folgt auch, dass eine wortgetreue Wiedergabe von Daten, die einem Sprachmodell einmal in Form von Trainingsdaten zugeführt wurden, etwas unwahrscheinlicher wird als wenn nur ein Eingabekopf verwendet werden würde. Wie das obige Beispiel von ChatGPT zeigt, geht die Eigenschaft des Sprachmodells, gelernte Texte wortgetreu wiederzugeben, dadurch allerdings nicht verloren.

Vielmehr wird jede Phrase bzw. jeder Satz in möglichst einmalig Weise im Sprachmodell gespeichert. Die folgende Abbildung verdeutlicht dies. Dargestellt sind die internen Repräsentationen zweier Sätze:

  1. Technische Phrase: „to understand machine learning algorithms you need to understand concepts such as gradient of a function, Hessians of a matrix and optimization etc“.
  2. Weissagung: „patrick henry said give me liberty or give me death when he addressed the second virginia convention in march“.
Quelle: Mehreen Saeed.

Anmerkung zur technischen Phrase: „Hessian“ hat nichts mit Hessen, dem Land mit der untätigsten Datenschutzbehörde Deutschlands, zu tun, sondern bezieht sich auf die Hessesche Normalform oder Hesse-Matrix.

Die Abbildung zeigt die graphische Darstellung der internen Zahlenrepräsentationen der beiden genannten Phrasen. Links im Bild ist die technische Phrase verbildlicht und rechts die weise Phrase.

Beide Darstellungen sehen bei nur kurzem Betrachten ähnlich aus, unterscheiden sich aber insgesamt ganz erheblich. Jede andere Phrase hat idealerweise eine ganz andere Darstellung, so dass jede Phrase in einem Sprachmodell eindeutig abgespeichert, also intern repräsentiert wird.

Insbesondere für die Übersetzung von Texten werden Encoder-Decoder Strukturen eingesetzt. In den Encoder wird der zu übersetzende Text eingegeben. Aus dem Decoder wird der übersetzte Text ausgegeben. Beide Teile werden durch Trainingsdaten mit Paaren von Eingabetexten und übersetzten Referenztexten vortrainiert.

Die folgenden zwei Sätze können somit ineinander überführt werden, indem der Eingabetext in den Ausgabetext von einem KI-Sprachmodell übersetzt wird.

  • Eingabetext: „The agreement on the European Economic Area was signed in August 1992.“
  • Ausgabe (Übersetzung): „L'accord sur la zone économique européenne a été signé en août 1992.“

Bildlich kann die interne Repräsentation von Eingabe- zu Ausgabeworten wie folgt dargestellt werden:

Quelle: Badanau et al., rote Umrandung selbst vorgenommen.

Oben sind die Worte des zu übersetzenden Eingabetextes zu sehen. Links sind die Worte des übersetzten Textes gezeigt. Die Schnittpunkte zweier Worte zeigen farblich, wie stark ein Wortpaar miteinander korreliert. Weiß bedeutet die höchste Korrelation (weiß). So ist das Wort „signé“ maximal korreliert mit „signed“, was richtig zu sein scheint, weil beide Worte im genannten Kontext in Französisch und Englisch äquivalent sind. Andererseits sind die beiden Worte "a" und "éte" aus dem Französischen jeweils nur mäßig (grau) mit dem englischen Wort „was“ korreliert, weil beide französischen Worte zusammen auf ein englisches Wort überführt werden. Der rot umrandete Bereich zeigt die zugehörigen Farbkodierungen.

Ein weiteres Beispiel zeigt, wie die Position eines Wortes im KI-Modell gespeichert ist, um die in einem Satz zu einem aktuell vom Sprachmodell prozessierten Wort semantisch zugehörigen Worte zu ermitteln:

Quelle: Cheng et. al..

Jede genannte Textzeile zeigt von oben nach unten den jeweils nächsten Verarbeitungsschritt des Eingabetextes im KI-Modell. In roter Farbe ist das jeweils aktuell verarbeitete Wort gedruckt. Mit blauer Farbe sind die vom Sprachmodell als relevant hinsichtlich des aktuellen Wortes erkannten Worte hinterlegt. Je dunkler das Blau, desto relevanter das Wort.

Was mit all den genannten Beispielen der internen Repräsentation von Worten in KI-Sprachmodellen gezeigt wird, ist, dass nicht nur Wortpositionen in einem KI-Sprachmodell gespeichert werden, sondern dadurch auch ganze Phrasen und Sätze, die somit rekonstruierbar sind, wenn ein KI-Modell befragt wird. Ohne Positionskodierung würde ein KI-Modell keine brauchbaren Ergebnisse liefern, jedenfalls nicht für die üblichen Sprachmodelle mit den vorgesehenen Aufgaben (im Wesentlichen: Textgenerierung).

Eine Publikation aus dem Jahr 2018 (also etwas veraltet) merkt an, dass Transformer keine besonders exakte Speicherung von Positionsinformationen liefert:

The transformer has no recurrent or convolutional structure, even with the positional encoding added to the embedding vector, the sequential order is only weakly incorporated.

Quelle: Lillian Weng.

Allerdings scheint sich dies nicht wirklich negativ auf die Fähigkeit aktueller Sprachmodelle auszuwirken, ganze Sätze in Originalform wiederzugeben, und somit datenschutzrechtlich relevant (sofern personenbezogene Daten genannt sind). Ein Argument dafür scheint auch zu sein, dass der im zitierten Beitrag genannte Ansatz namens SNAIL (Simple Neural Attention Meta-Learner) sich nicht durchgesetzt hat. SNAIL sollte die angebliche Schwäche von Transformern heilen, Positionsinformationen nicht besonders gut zu speichern. Da SNAIL aktuell nicht mehr relevant ist, Transformer aber schon und Transformer sehr wohl ganze Sätze fehlerfrei zitieren kann, ist die oben zitierte Aussage von Weng mittlerweile eher irrelevant.

Es muss grundsätzlich davon ausgegangen werden, dass ein KI-Sprachmodell, das auf einem modernen Verfahren wie Transformer basiert, Daten aus Trainingseingaben in Originalform speichern kann, auch wenn dies nicht in jedem Fall passiert.

Ein paar Worte zu Transformer

Der Transformer-Ansatz in seiner Ursprungsform, wie im Paper "Attention Is All You Need“ vorgeschlagen, basiert auf der oben erwähnten Encoder-Decoder Architektur.

Quelle: Vaswani et. al., rote Markierungen selbst hinzugefügt.

Wie zu sehen ist, basieren sowohl Encoder als auch Decoder auf Positionskodierungen und ebenso auf Einbettungen (Embeddings = Vektoren = Zahlenreihen).

Mittlerweile gibt es weitere Transformer-Architekturen, nämlich:

  • Encoder-Decoder: Ursprünglicher Ansatz, insbesondere für Übersetzungen oder Zusammenfassungen von Text,
  • Decoder-only: Kausale Sprachmodelle, etwa Für Chatbots wie ChatGPT, aber auch LLaMA, Bard, T5 und andere.
  • Encoder-only: Maskierte Sprachmodelle, etwa BERT.

Die Unterschiede liegen im Detail und können hier nicht näher betrachtet werden. Essentiell ist, dass alle Transformer-Architekturen analoge Eigenschaften bezüglich der Datenspeicherung („Training“) und des Hervorholens der antrainierten Daten haben.

Was wird benötigt, um Informationen aus einem KI-Modell herauszubekommen?

Ein KI-Modell alleine, ohne Begleitinformationen, stellt eine bloße Ansammlung von Zahlen dar, wenn man es etwas vereinfacht betrachtet. Hieraus kann wahrscheinlich kein Datenschutzproblem entstehen.

Allerdings speichert niemand ein KI-Modell ab, ohne die Möglichkeit zu besitzen oder haben zu wollen, das KI-Modell auch zu nutzen. Die für die Nutzung eines KI-Modells nötigen Teile sind:

  • Tokenizer: Ein Programmcode, der meist in standardisierter Form jederzeit heruntergeladen werden kann, wenn er zwischendurch mal gelöscht worden sein sollte.
  • Vokabular (Wortfetzen) für den Tokenizer: Eine Textdatei bzw. Datei mit überwiegend druckbaren Zeichen.
  • KI-Modell: Liste von Zahlenreihen (eine vereinfachende Beschreibung).
  • Transformer: Ein Programmcode, der meist in standardisierter Form jederzeit heruntergeladen werden kann, wenn er zwischendurch mal gelöscht worden sein sollte.

Eine reale Zusammenstellung der Kerndaten eines KI-Modells ist hier dargestellt:

Die Daten, aus denen ein KI-Modell besteht.

Diese Daten werden bereitgestellt, damit jemand das KI-Modell GPT2 herunterladen und nutzen kann. Die Kerndatei ist pytorch_model.bin und hat hier eine Größe von ca. 3,7 Gigabyte. Die Datei vocab.json enthält die weiter oben beschriebenen Tokens. Die README.md Datei enthält eine Anleitung, wie das Modell genutzt werden kann. Die anderen Dateien mit der Endung .json sind sehr klein und enthalten Konfigurationsangaben.

Mit einem KI-Modell verhält es sich wie mit einem ZIP-Archiv, in dem Dateien in komprimierter Form abgespeichert sind. Niemand speichert sich absichtlich ZIP-Dateien ab, ohne später wieder darauf zugreifen zu können. Dazu ist ein ZIP-Programm nötig, das diese Dateien sowohl erstellen, als auch wieder entpacken kann.

Analog ist es mit PDF-Dateien: Eine PDF-Datei kann nur der öffnen, der einen PDF-Betrachter hat. Solche Betrachterprogramme kann jeder sich jederzeit von überall herunterladen. Analog verhält es sich mit dem Code für Tokenizer und Transformer sowie dem Vokabular für ein bestimmte KI-Modell. KI-Modelle werden immer zusammen mit allen nötigen Bestandteilen angeboten, oder wenn nicht, dann zusammen mit einer Beschreibung, wo die Bestandteile besorgt werden können.

Technische Details

Nur in Kürze können hier ein paar technische Feinheiten genannt werden. In einem KI-Modell werden Tokens nicht nur einfach so abgespeichert. Vielmehr enthalten sie auch Angaben zu den Positionen der Tokens.

Folgender simpler Standard-Programmcode verdeutlicht, wie ein vortrainiertes GPT-Modell geladen werden kann und wie sowohl auf die interne Repräsentation der Token als auch auf deren Positionsangaben zugegriffen werden kann:

from transformers import GPT2LMHeadModel #Bibliothek importieren

model = GPT2LMHeadModel.from_pretrained('gpt2')  # KI-Modell laden
token_embeddings = model.transformer.wte.weight  # Tokens Embeddings 
position_embeddings = model.transformer.wpe.weight  # Token Positionen Embeddings 

Die verwendete Python-Bibliothek namens transformers ist absoluter Standard und kann jederzeit aus dem Internet heruntergeladen werden. Sie liegt sogar quelloffen vor.

Die Kommentare am Ende der Zeilen beginnen mit vorangestellter Raute und erklären kurz, was der Programmcode tut. Verwendet wird hier das GPT2-Modell, weil es im Gegensatz zu OpenAI-Nachfolgern noch frei verfügbar ist. Nachdem das GPT-Modell geladen wurde, kann es ausgewertet werden. Im obigen Beispielcode werden dazu die Gewichte als interne Repräsentation der im Modell gespeicherten Token ausgelesen. Ebenso werden auf gleiche Art die Gewichte für die Positionen der Tokens zueinander ausgelesen.

Um einen Prompt in ein KI-Modell einzugeben und die Antwort zu erhalten, könnte man folgenden Code verwenden:

# Frage in Token-Identifikatoren umwandeln
input_ids = tokenizer(["Sind Cookies Textdateien?"], return_tensors="pt")

# Token-Identifikatoren in Zahlenreihen (Einbettungen) umwandeln
embeds = model.transformer.wte.weight[input_ids, :]

# Antwort des KI-Modells erhalten (=Zahlenreihen = Einbettungen)
outputs = model(inputs_embeds=embeds)

# Erste Antwort in natürliche Sprache umwandeln
antwort = tokenizer.decode(outputs[0])

# Antwort ausgeben
print(antwort) #Ergebnis wäre idealerweise "Nein, Cookies sind keine Textdateien"

Der Code zeigt die einzelnen Schritte, um ein Modell zu befragen und die Antwort in einer für den Menschen lesbaren Form zu erhalten. Üblicherweise programmiert man das etwas anders als hier im Beispiel angegeben.

Fazit

KI-Sprachmodelle speichern potentiell personenbezogene Daten, denn sie speichern ganze Worte, Wortbestandteile und Wortzusammenhänge (= Wortanfänge und dazu passende, mögliche Wortenden). In einem KI-Modell liegen mindestens pseudonyme Daten.

Moderne KI-Sprachmodelle wie ChatGPT und andere Transformer-basierte Modelle speichern Trainingsdaten auf Wort- oder gar Satzebene potentiell im Original.

Worte werden potentiell in komprimierter (oft aber in unkomprimierter), menschenlesbarer Form gespeichert, Sätze in Form von Referenzen auf Worte mitsamt Positionsinformationen.

Ebenso sind KI-Sprachmodelle in der Lage, ganze Sätze aus Eingabedaten wortgetreu wiederzugeben. Diese Fähigkeit ist zwar nicht zuverlässig vorhanden, muss aber im Zweifel angenommen werden.

Aus einem KI-Modell können Daten herausgeholt werden, indem die zugehörigen Begleitdaten und Standardbibliotheken verwendet werden. Ohne diese Bestandteile ist ein KI-Modell unbrauchbar und kann eigentlich nicht mehr als KI-Modell bezeichnet werden.

Wenn ein KI-Modell lokal auf einem eigenen KI-Server betrieben wird, können viele Datenprobleme entschärft werden. Eine hohe Leistungsfähigkeit lokaler Modelle ist insbesondere bei Frage-Antwort-Assistenten, aber auch bei Dokumentensuchmaschinen oder Bildgeneratoren möglich. Bei Nutzung von Modellen von Drittanbietern wie OpenAI, Microsoft oder Google besteht andererseits zusätzlich das Problem, dass Eingabedaten irgendwo landen und niemand weiß, wo.

Daher empfehlen sich für spezifische Aufgaben im Unternehmen eigene Sprachmodelle. Diese bauen typischerweise auf vortrainierten, öffentlich verfügbaren und zugleich leistungsfähigen Modellen auf. Die Qualität ist oft besser als die von ChatGPT, weil letzteres System alles Mögliche leisten soll und deswegen teilweise als besonders unzuverlässig anzusehen ist, wie einfache Untersuchungen zeigen (siehe Link eben).

Kernaussagen dieses Beitrags

KI-Sprachmodelle speichern Daten als Zahlenreihen (Vektoren) ab, um die Bedeutung von Wörtern und Texten zu erfassen.

KI-Sprachmodelle lernen aus riesigen Textmengen und können so ganze Sätze speichern und wiedergeben.

KI-Sprachmodelle lernen aus Texten, indem sie Wörter (Token) als Zahlencodes interpretieren und daraus Muster erkennen.

KI-Modelle zerlegen Wörter in kleinere Teile ("Wortfetzen"), um sie besser zu verarbeiten.

KI-Sprachmodelle speichern Texte exakt ab, einschließlich personenbezogener Daten, die durch gezielte Fragen herausgefordert werden können.

Sprachmodelle verstehen Texte, indem sie Wörter als Zahlenreihen darstellen und mithilfe eines Verfahrens namens "Aufmerksamkeit" Zusammenhänge zwischen den Wörtern erkennen.

KI-Sprachmodelle speichern nicht nur einzelne Wörter, sondern auch ganze Phrasen und Sätze durch eine spezielle Positionierung der Wörter im Modell. Diese Positionskodierung ist wichtig für die korrekte Verarbeitung von Texten und die Generierung sinnvoller Antworten.

KI-Sprachmodelle können potenziell personenbezogene Daten speichern, da sie Wörter, Wortbestandteile und Zusammenhänge lernen.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus
    • Dr. DSGVO

      Danke für Ihre Rückmeldung. Im von Ihnen genannten Beitrag ist nur auf das hingewiesen, was hier im Beitrag schon steht.
      In KI-Modellen dürften die meisten allgemein zugänglichen Daten, die als pseudonym anzusehen wären, nahezu für jeden potentiell personenbezogen sein.
      Warum ist das so?
      Weil jeder potentiell aus einem KI-Modell jede Art von Information herauskitzeln kann, die im Sprachmodell gespeichert ist. Dieser Vorgang könnte sogar automatisiert werden (automatisiertes Befragen eines KI-Modells).
      Letztendlich muss man sich die einzelnen Fälle ansehen, wenn sie denn in Frage stehen. Generell muss, wie im Beitrag illustriert, davon ausgegangen werden, dass KI-Modelle personenbezogene (aber auch potentiell urheberrechtlich geschützte) Daten speichern.

  1. Anonym

    Hinweis zu Folge 31:
    datenschutz gilt nach dsgvo auch bei nicht automatisierten Verarbeitung. Nicht wie bei minute 23:34 erwähnt nur in digitalen Prozessen.

    • Dr. DSGVO

      Ja, stimmt. Art. 4 (1) DSGVO sagt es:
      "Diese Verordnung gilt für die ganz oder teilweise automatisierte Verarbeitung personenbezogener Daten sowie für die nichtautomatisierte Verarbeitung personenbezogener Daten, die in einem Dateisystem gespeichert sind oder gespeichert werden sollen."

      (Manuelle, systematische) Speicherung (etwa auf Papier) reicht aus.

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

Künstliche Intelligenz: Hype und überschätzt oder angemessene Erwartungen?