Künstliche Intelligenz: Personenbezogene Daten in KI-Modellen (Datenschutz Deluxe Podcast #30)

Transkript zur Podcast-Folge. Diese Folge kann hier angehört werden:

KI-generiertes Transkript

Das folgende Transkript wurde von einem selbst programmierten optimierten KI-Programm generiert. Das Programm ist datenschutzkonform, es benötigt keine Internetverbindung und tauscht keine Daten mit Dritten aus. Das Ergebnis ist hervorragend.

Hohe Datensicherheit

Offline-Betrieb möglich

Hohe Qualität

AI Act leicht beherrschbar

Unverbindliches Beratungsgespräch

Datenschutz Deluxe, der Podcast rund um das Thema Datenschutz und IT mit Dr. Klaus Meffert und Stephan Plesnik.

Hallo und herzlich willkommen zum Datenschutz Deluxe Podcast hier am 26. September 2023. Mein Name ist Stephan Plesnik und ich begrüße euch da zu Hause an den Empfängern.

Ich hoffe, dass ihr vorbereitet seid auf ein ganz spannendes Thema.

Bei mir ist natürlich wie immer Dr. Klaus Meffert.

Klaus, ich grüße dich.

Wie geht es dir heute Morgen?

Ja, Stephan, ich grüße dich auch.

Mir geht's gut.

Ich hoffe, dir geht's auch gut und die Zuhörer auch, wenn sie vielleicht unterwegs sind.

Sie können ja auch von aus dem Zug zuhören, da hat man ja auch ein bisschen mehr Zeit, wenn der Zug länger braucht.

Was er meist braucht.

Vielleicht macht die Bahn das sogar extra, dass unser Podcast länger gehört werden kann.

Freuen Sie sich auch auf unser spannendes Thema heute.

Ja, sehr schön.

Also, wunderbar.

Wir steigen mal direkt ein, würde ich sagen, denn heute sprechen wir über das kritische, für mich eigentlich ein ziemliches, ich sag das mal mit Angela Merkels Worten, Neuland-Thema.

Und zwar personenbezogene Daten in KI-Modellen und welche datenschutzrelevanten Aspekte dahinter stecken.

Und zum Einstieg hätte ich direkt mal die spannende Frage, von der Ebene quasi des Datenschutzes, so das Datenschutzrechts, die wir betrachten perspektivisch, spielen sich KI-Modelle und klassische Suchmaschinen, klassisch meine ich jetzt Google als Beispiel, da in einem ähnlichen Feld ab?

Oder ist das jetzt nochmal wieder eine komplett neue Bemessung?

Und wenn ja, auf welcher Grundlage?

Ja, also vielleicht ist es in Ordnung, wenn wir nur über KI-Sprachmodelle zunächst sprechen.

Es gibt ja noch bildgenerierende Verfahren und sowas.

Aber um es nicht zu kompliziert zu machen, vielleicht reden wir über Sprachmodelle, weil du auf Suchmaschinen sagtest, da geht es ja auch um Texteingaben.

Und da sollen ja üblicherweise zumindest Textergebnisse rauskommen.

Da gibt es zwar auch die Bildersuche, aber da reden wir jetzt vielleicht erst mal nicht drüber.

Und da ist es so, mittlerweile hat sich die Frage etwas verschoben.

Es gibt ja Suchmaschinen wie Bing von Microsoft, die auch künstliche Intelligenz nutzen im Hintergrund und nicht immer vielleicht, aber teilweise die Suchergebnisse auch durch KI-Suchen sozusagen gestützt darstellen und auch teilweise Antworten geben, die vorher nicht gegeben wurden.

Das heißt also, man muss gar nicht mehr die Webseite eines Content-Lieferanten besuchen, sondern sieht direkt in der Google-Suche die Ergebnisse.

Finden viele natürlich nicht gut oder in der Bing-Suche.

Aber ich will das hier nur einfach mal rein objektiv festhalten.

Und da ist es eben schon so, wenn eine Suchmaschine natürlich KI im Hintergrund nutzt, dann hat sie ja dieselbe Datenbasis wie ein KI-Modell im Endeffekt.

Sogar noch mehr, weil ja der klassische Suchindex noch dazukommt.

Und der klassische Suchindex oder die klassische Suchmaschine, da zielt ja wahrscheinlich auch deine Frage drauf ab.

Da sehe ich in der Tat zunächst mal bei der Datenbeschaffung und Datenhaltung erst mal keine Unterschiede.

Also bei der Beschaffung wenigstens.

Bei der Datenhaltung ist es ein bisschen komplizierter.

Da können wir dann gerne auch noch mal drüber sprechen.

Okay, also auf der Ebene, wie kommen die Daten in das System hinein?

Also im Endeffekt der Punkt der Datenerhebung.

Würdest du sagen, es ist datenschutztechnisch eigentlich dasselbe?

Jetzt ist es nun so, dass ich zum Beispiel schon an verschiedenen Stellen gelesen habe, dass eben zum Beispiel ChatGPT wohl Informationen, die auf nicht-öffentlichen LinkedIn-Profilen veröffentlicht sind, also quasi nur im Universum von LinkedIn gelesen werden können, wiedergegeben hat.

Und OpenAI hat dann dazu gesagt, dass das ja im Endeffekt nicht deren Ansinnen wäre, aber dass das eben passieren könnte, weil das sind ja Informationen im Internet.

Und die Informationen finde ich aber ja ganz bewusst in Suchmaschinen jetzt nicht.

Da wäre doch dann der Punkt einer Datenerhebung, die eigentlich nicht datenschutzkonform ist, gegeben, oder?

Und wenn ja, wie geht das überhaupt?

Also loggt sich ChatGPT über die API von LinkedIn ein oder was machen die da dann?

Ja, gute Frage.

Also ich kenne jetzt den Fall speziell nicht.

Ich weiß aber auch, dass es Gerüchte gibt, beziehungsweise vielleicht war es auch der Anlass für die italienische Datenschutzbehörde, ChatGPT mal kurzzeitig zu verbieten, dass es eben so ist, dass OpenAI da Quellen angezapft hat, wie du sagst, die nicht öffentlich sind.

Die Frage ist, wenn man eine Quelle anzapft, auch die LinkedIn-API zum Beispiel, die ist ja auch irgendwie halb öffentlich, kann man schon sagen, man hat ja einen Zugang dazu und kann dann Daten abrufen.

Die Frage ist, ob der Inhaber der Daten, wer auch immer das dann ist, ist es die Plattform, ist es der Ersteller eines Posts auf LinkedIn oder sind es beide zum Beispiel?

Das kommt auch auf die Bedingungen an auf der Plattform, ob die damit einverstanden sind, dass so ein Dritter wie OpenAI diese Daten abgreift.

Ja, wenn die Daten natürlich geschützt sind vom äußeren Zugriff durch ein Login oder sowas, dann ist es schon ein bisschen schwieriger, solche Daten zu verwenden in öffentlichen KI-Modellen.

Heißt aber jetzt nicht unbedingt, dass es verboten ist, es wäre nur kritisch zu betrachten natürlich.

Ich kann jetzt den Fall leider nicht konkret ausgestalten, weil ich ihn nicht genug kenne.

Aber wenn es um geschützte Daten geht, die nicht öffentlich sind, dann ist es natürlich kritisch, wenn man diese Daten abgreift und die dann in einem öffentlichen Modell sozusagen verwendet, was ja ChatGPT ist.

Ja, okay, dann sind wir da auf jeden Fall d'accord mit dieser Situation.

Jetzt mal die Frage, wenn ich mir jetzt überlege, wo kann denn, wenn ich an Datenschutz denke, dann geht es ja um Persönlichkeitsrechte, also wo kann denn in so einem Sprachmodell, nehmen wir ChatGPT als Beispiel, wo kann denn da ein Problem mit der Verwendung personenbezogener Daten entstehen?

Wir haben jetzt gerade gesagt, Erhebung ist eine Möglichkeit, wo ein Problem entstehen kann.

Also das kann einwilligungspflichtig sein und gegen die Einwilligung oder ohne die Einwilligung passieren.

Klar, den Tatbestand kennen wir quasi von jeder Webseite, die Google Analytics oder sowas einsetzt.

Aber wo sind wir da bei der Verarbeitung der Daten?

Also wie würdest du sehen, könntest du dir vorstellen, dass da wirklich auch ein Schadensfall für die betroffene Person entsteht?

Oder was kann man mit den Daten machen in einem KI-Modell, was gefährlicher sein kann als in einer Suchmaschine?

Ja, also genau, ein KI-Modell hat mehr Möglichkeiten als eine Suchmaschine.

Da liegt eben eine der Gefahren drin.

Bei einer Suchmaschine werden ja keine neuen Informationen generiert, üblicherweise jedenfalls nicht oder wurden bisher nicht, sondern es werden bestehende Informationen eingelesen und die sozusagen wortgetreu wiedergegeben.

Das ist so der klassische Fall, den man von vor einigen Jahren wenigstens kennt.

Und wie gesagt, bei der Datenbeschaffung an sich, wenn die jetzt auf normalen Wegen stattfindet, dann gibt es da für mich keinen Unterschied zwischen einer Suchmaschine und einem KI-Modell.

Also ich habe, also außer diese Fälle, die du eben gerade genannt hast natürlich, aber das will ich bei der Google-Suche jetzt auch nicht ausschließen, dass die Daten abgreifen, die vielleicht nicht unbedingt vorgesehen sind.

Aber ansonsten hatte ich die Aufregung erst schon nicht verstanden bei KI-Modellen, warum diese Datenerhebung, wenn sie denn über öffentliche Quellen geht, ein Problem sein sollte.

Hat ja bisher offiziell zumindest niemand drüber gesprochen, dass diese Daten aus anderen Quellen kämen.

Da bei Suchmaschinen hat man auch nicht so genau hingeschaut.

Jetzt bei KI-Modellen ist was Neues, da gucken die Datenschutzbehörden hin, aber nur meiner Meinung nach, auch die hessische, die ja sonst gar nichts tut, für den Datenschutz, meiner Meinung nach.

Ja, ich komme ja aus Hessen, deswegen möchte ich darüber auch immer wieder reden und weil ich so enttäuscht bin von dieser Behörde, die übrigens Google Analytics für komplett harmlos hält.

Ja, du musst da anfangen zu arbeiten.

Du musst dich bei denen bewerben, damit du endlich was daran ändern kannst, dass da mal Zunder reinkommt.

Also gut, lassen wir das.

Da haben dann einige Behörden angefangen, aktiv zu werden bei KI, weil es ja ein neues Thema ist.

Und dann ist die hessische Behörde halt auch draufgesprungen, weil es ja dann gefahrlos ist.

Dann kann ja keiner sich unbeliebt machen, wenn andere sich vorher unbeliebt gemacht hätten.

Also Datenerhebung, Daten einlesen, abgehakt.

Jetzt geht es um die Datenspeicherung im KI-Modell erst mal, weil danach kommt ja erst die Beantwortung einer Frage.

Wie speichern KI-Modelle Daten?

Ich habe mir das mal etwas genauer, also KI-Sprachmodelle genauer gesagt, habe ich mir genauer angeschaut.

Und da ist es eben so, alle modernen Modelle, die ich mir angeguckt habe, auch ChatGPT, auch die neueren GPT-Versionen, die jetzt teilweise keine Open Source sind, aber die analog arbeiten wie die letzte öffentliche GPT-Version, die machen es eben so, die nehmen ein Vokabular, was sie erzeugen.

Also sie lesen ganz viele Texte ein.

Da sind ganz viele Begriffe und Worte und Eigennamen drin.

Und daraus wird ein Vokabular erzeugt.

Der naive Ansatz wäre, jedem Wort einen Eintrag im Vokabular zu verpassen.

Also das heißt Haus, Computer, Stephan, Plastik, Klaus, Meffert, Datenschutz sind alles einzelne Worte, Einträge im Vokabular.

So, jetzt wird da eine kleine Komprimierung vorgenommen, indem da sogenannte Tokens oder manche nennen es auch Wortfetzen, abgespeichert werden.

Das heißt, aus Datenschutz könnten jetzt zum Beispiel zwei Wortfetzen werden, Daten und Schutz zum Beispiel.

Das würde dann etwas komprimierter abgespeichert, weil es gibt ja auch noch andere Begriffe, die mit Daten anfangen oder mit Schutz nicht anfangen.

Also das Wort Mitte oder Wort Ende oder irgendwo haben.

Aber potenziell ist es so, dass alleine schon im Vokabular, das ist einfach eine Textdatei, die ist im JSON-Format heißt es, aber das ist eine Textdatei, die menschenlesbar ist und maschinenverarbeitbar.

Da stehen einfach diese Wortfetzen und auch ganze Worte drinnen.

Das ist eigentlich in jedem KI-Sprachmodell so.

Und da könnte es natürlich sein, dass da schon personenbezogene Daten drinstehen.

Jetzt muss man natürlich sagen, was ist das Problem, wenn ein Name, es gibt ja Nachnamen, die sind einmalig auf der Welt oder in Deutschland zumindest, wenn wir über ein deutsches Sprachmodell reden.

Und wenn der Name da komplett drinsteht, dann ist es ein Hinweis auf eine Person.

Aber damit würde ich jetzt sagen, hat man zwar eine Verantwortlichkeit, aber die Frage ist, wofür?

Weil diese Person, weiß ich nicht, ob die jetzt sich beschweren kann, dass ihr Name in diesem KI-Sprachmodell drinsteht.

Also wenn es nur der Name ist, ich meine, im Telefonbuch steht auch ein Name.

Da müsste man nochmal genauer einsteigen.

Aber eigentlich kann aus der Nennung eines Namens, ohne Kontext sozusagen, wahrscheinlich kein Datenschutzproblem entstehen, so würde ich es jetzt mal formulieren.

Und dann geht es eben weiter.

Da würde mich mal interessieren, ob du das genauso siehst, vielleicht, bevor ich da weitermache.

Ja, also im Endeffekt habe ich jetzt gerade gedacht, ich surfe mal kurz und gucke nochmal wieder in die DSGVO rein.

Das mache ich ja so gerne in solchen Situationen.

Und da wissen wir ja, dass in Artikel 5 grundsätzlich für die Verarbeitung personenbezogener Daten steht.

Personenbezogene Daten müssen, und jetzt unter Punkt E, wo wir uns befinden, in einer Form gespeichert werden, die die Identifizierung der betroffenen Personen nur so lange ermöglicht, wie es für die Zwecke, für die sie verarbeitet werden, erforderlich ist.

Gehen wir mal nur bis zu dem Punkt, bevor wir jetzt auf die Einschränkung durch die Gestaltung technischer organisatorischer Maßnahmen, die dann gefordert wird, sind.

Aber alleine diese Tatsache sagt doch, also in Bezug auf das KI-Sprachmodell, welchen Zweck verargumentieren wir denn datenschutzrechtlich für das KI-Sprachmodell an der Stelle?

Ja, okay.

Das ist ein guter Punkt.

Ja, also da hast du vollkommen recht.

Also ich würde es folgendermaßen sehen.

Es ist zumindest erlaubt, laut Urhebergesetz, was jetzt hier nicht unbedingt gilt, aber man könnte auch sagen, bei personenbezogenen Daten sind es öffentliche Daten.

Wenn jemand öffentlich auf seiner Webseite schreibt, dann kann ich nichts dagegen haben, dass man weiß, dass diese Person existiert, sagen wir mal so.

Jetzt lese ich diesen Personennamen ein.

Das würde ich noch für erlaubt halten, wenn es legitime Zwecke sind.

Außer die Person hat automatisch oder auch manuell dann später widersprochen.

Automatisch widersprechen geht momentan gar nicht, weil es gar keinen Standard gibt dafür, wie man einem KI-Modell verbietet oder mitteilt, dass man gar nicht möchte, dass die Daten da landen.

Es gibt zwar Robots, TXT als Crawler, Blocker sozusagen.

Das ist aber ein reiner Wunsch und außerdem nicht für KI-Modelle gedacht.

So muss man es ja sagen, ja.

Könnte man darüber reden, ob sich KI-Modelle auch daran halten müssen.

Selbst wenn viele wissen gar nicht, wie KI-Modelle Crawler heißen.

Also insofern landen die Daten wahrscheinlich rechtmäßig im KI-Modell oder sind schon gelandet.

Der Crawling-Prozess von GPT4 ist ja schon abgeschlossen nach September 2021. Wenn jetzt einer seinen Crawling-Schutz aktiviert für ChatGPT, dann bringt das nur für zukünftige Versionen was.

So, jetzt ist der Name drinnen.

Dein Name zum Beispiel wäre jetzt im Sprachmodell drin.

Der wäre eindeutig.

Ja, es wäre noch wichtig, dass der eindeutig ist, wenn es 10.000 Plesniks gibt und da nur Plesniks steht irgendwo.

Ich meine, dann kannst du jetzt nicht sagen, mein Name steht da drin.

Sag dann, nee, das ist der von jemand anders.

Woher wissen Sie das eigentlich, dass es Ihr Name ist?

Ihre Adresse steht ja auch gar nicht dabei oder Ihre E-Mail oder irgendein anderes Kennzeichen, was darauf deuten könnte, dass du es bist.

Also dieser Fall, dass der Name nicht eindeutig ist, finde ich, da ist es eher so, dass man nicht sagen kann, dass es der eigene Name ist, der im Sprachmodell steht, wenn es keinen Kontext gibt dazu.

Wir sind ja erst noch bei der Speicherung der Daten im Modell, nicht bei der Generierung einer Antwort.

Wenn es aber ein eindeutiger Name ist und die Person kommt zum Betreiber des KI-Modells und sagt, hier, ich habe gesehen, ihr habt meinen Namen gespeichert, dann hätte ich gerne, dass ihr den da rausnehmt, dann müsste man das machen.

Und da fällt mir jetzt die Möglichkeit ein, dass man eben aus dem Vokabular. . .

Wahrscheinlich müsste man es machen, vermute ich.

Dann könnte man aus dem Vokabular einfach diesen Namen rausnehmen beziehungsweise durch eine anonymisierte Version ersetzen.

Da schreibt man dann einfach YZ rein oder so was.

Statt Syntax Superi als Beispiel, ja?

Ja.

Das ist möglicherweise ein eindeutiger Name.

Und schon hätte man, weil wenn nämlich dann Ausgaben generiert werden im KI-Modell, dann greift er nämlich darauf zu, auf dieses Vokabular und gibt dann statt Syntax Superi gibt er dann den Begriff YZ aus, was ja dann offensichtlich nicht mehr der Name der betroffenen Person ist, die wollte, dass dieser Name gelöscht wurde.

Absolut.

Da stimme ich dir voll zu.

Jetzt ist es ja so, dass dieser Punkt, der Speicherbegrenzung, ist ja zeitlich und zweckgebunden.

Aber es gibt ja auch noch die Tatsache, dass die personenbezogenen Daten dem Zweck angemessen und erheblich sowie auf das für die Zwecke der Verarbeitung notwendige Maß beschränkt sein müssen.

Stichwort der Datenminimierung.

Das ist der Punkt C unter Abschnitt 1 Artikel 5. Jetzt stellt sich halt für mich die Frage, naja gut, wir haben es ja bei so einem KI-Sprachmodell mit einer Technologie zu tun, die eigentlich nur dann einen Wert besitzt, einen Mehrwert schaffen kann, wenn sie exorbitant große Mengen an Daten, also solches Vokabular, zur Verfügung hat, um daraus eben logisch vernünftige oder sinnvolle Antworten zu generieren.

Würdest du da jetzt sagen, die Zwecke der Verarbeitung, also aufs notwendige Maß für die Zwecke der Verarbeitung beschränken, kann man da eigentlich gar nicht einsetzen, je mehr Daten das Ding hat, desto wertvoller, desto besser funktioniert es und je weniger Daten es hat, desto weniger Wert stellt es überhaupt dar.

Oder würdest du dann sagen, da müssen wir vielleicht tendenziell über die Frage diskutieren, ob Sprachmodelle überhaupt vereinbar sind mit unserem Bestreben nach Privatsphäre?

Ja okay, also grundsätzlich sehe ich da zunächst mal keinen Unterschied.

Also wir sind bei der Datenspeicherung noch, ja, immer noch bei der Datenspeicherung.

Kein Unterschied zur Suchmaschine.

Ich meine offensichtlich speichert die Suchmaschine auch eine komplette Webseite ab.

Also nochmal, eine Person, die auf ihrer Webseite öffentlich irgendwelche Informationen über sich selbst gibt, kann nicht sagen, sie will ihre Privatsphäre bezüglich dieser Daten gewährleistet wissen.

Also das halte ich, dann soll sie die Webseite nicht öffentlich betreiben.

Da hast du recht, absolut.

Ich will jetzt niemanden da das Tor öffnen, um so eine Daten zu missbrauchen.

Aber wenn ich Daten, das macht ja auch eine Suchmaschine, Daten von einer Webseite wiedergebe, die eingelesen wurde, die öffentlich ist, dann kann ich die Person sagen, die diese Daten ursprünglich veröffentlicht hat, ihre Daten veröffentlicht hat.

Das möchte ich nicht, weil ich meine Privatsphäre gewahrt haben möchte.

Da geht es dann eher um Fragen, wie möchte ich das Dritte meine Daten weiter verwerten?

Nicht wegen der DSGVO, sondern ich weiß von manchen, dass die ihre Webseite zum Beispiel gegen Crawling blocken, weil sie nicht wollen, dass ihre Inhalte irgendwo anders landen und ihre eigene Seite nicht mehr aufgerufen wird.

Das ist so eher der Grund, wenn man ehrlich ist.

Also, wenn du jetzt deine Webseite und da steht irgendwas wie alt du bist oder welche Farben du gerne hast oder so, dann kannst du nicht sagen, ja, ich möchte nicht, dass das öffentlich wird.

Das ist ja schon öffentlich.

Es ist ja schon auf deiner Webseite gespeichert.

Und diese Speicherbegrenzung, ja, das wäre, wie gesagt, das weiß ich nicht, ob das an dem Punkt schon greift, weil es ja ein legitimes Interesse einer Suchmaschine ist und eine KI, die Daten speichert zunächst, könnte man auch erstmal als bessere Suchmaschine betrachten.

Wir kommen ja gleich noch zu Antwortgenerierungen vielleicht.

Da würde ich sagen, sehe ich jetzt noch kein Problem mit der Speicherbegrenzung, weil es sind ja öffentliche Daten.

Die Speicherbegrenzung hätte bei der Person schon stattfinden müssen, meiner Meinung nach, die die Daten bereitstellt, wenn sie will, dass die Daten geschützt sind.

Sie kann nicht später sagen, ich habe die Daten öffentlich gemacht, aber ich will jetzt, dass andere diese öffentlichen Daten nur zur Hälfte benutzen.

Also, da muss man sich halt vorher entscheiden, mache ich Daten öffentlich oder nicht.

Aber nochmal, es fehlt halt ein Mechanismus, eines Opt-out sozusagen, oder vielleicht redet man irgendwann auch mal über eine Einwilligung, also Opt-in, den gibt's technisch so jetzt nicht.

Das muss man einfach zur Kenntnis nehmen.

Und den wird es auch nie geben.

Jedenfalls nicht in einer sicheren Weise, denn wenn sich jemand nicht dran hält, was in der Robots.

txt zum Beispiel steht, auch jetzt schon nicht, dann kann die Webseite daran wenig ändern, ja.

Man kann höchstens einzelne IP-Adressen aussperren, aber dann ist es eben so, dass die Bösartigen ändern ihre IP-Adresse oder man schreibt rein, der Bot XYZ soll nicht meine Webseite abgrasen.

Der Bot, der ändert aber dann irgendwann seinen Namen und vielleicht sogar aus guten Gründen, also jetzt nicht bösartig, heißt dann ABC oder XYZ Version 1. 2 und schon kann er wieder die Webseite einlesen.

Das Einzige, was bleibt, ist eine passwortgeschützte Webseite mit Abonnenten oder sonstigen Personen, die dann die Zugriffe bekommen.

Nur so kann man effektiv Inhalte gegen Abgrasen durch Dritte schützen.

Das betrifft jetzt nicht nur personenbezogene Daten.

Absolut.

Führt so ein bisschen gedankentechnisch an diesen Punkt, den ich mal in einem sehr spannenden Gedankenexperiment hatte, sind Anarchie und absolute Demokratie nicht dasselbe, wenn ich in einem so liberalen Raum agiere, wie das Internet ihn darstellt.

Im Endeffekt ist ja dort alles vorhanden und alles kann konsumiert werden und jeder kann dazu beitragen, auf seine Art und Weise.

Und wenn man sich anguckt, wie sich zumindest in Deutschland die Behörden gegenüber dem Internet positionieren, habe ich doch, zumindest bei der Exekutive, sehr häufig das Gefühl, dass die sagen, das scheint irgendwie ein anderer Raum zu sein, als der rechtliche Rahmen, wenn wir selber auf die Straße gehen, was ich für sehr komisch und fahrlässig halte.

Aber gut, das ist meine persönliche Meinung, ich bin auch kein Jurist.

Wo du geradezu kamst, zu dem Punkt der Antwortgenerierung, da, finde ich, wird das Thema halt wirklich unglaublich spannend.

Denn anders, genau wie du gesagt hast, als bei einer klassischen Suchmaschine wie Google, die dir Antworten aus vorhandenen Inhalten im Internet generiert und damit im Endeffekt, was die DSGVO und die personenbezogenen Daten angeht, nach Artikel 5 Absatz 1 Nummer D, sachlich richtig und erforderlich jedenfalls auf dem neuesten Stand sein müssen.

Es sind alle angemessenen Maßnahmen zu treffen, damit personenbezogene Daten, die im Hinblick auf die Zwecke ihrer Verarbeitung unrichtig sind, unverzüglich gelöscht oder berichtigt werden.

Das Stichwort der Richtigkeit.

Und ich finde, das ist bei einer Antwort doch eigentlich das Wichtigste, dass wir uns sicher sein können, dass die Antwort, die wir bekommen, richtig ist.

Bei Google haben wir dann im Endeffekt nur, wir wissen von vornherein, die Antwort, die wir bekommen, kommt von irgendwo anders her.

Und dementsprechend haben wir dann uns selbst an der Richtigkeit zu zweifeln.

Aber so ein KI wie so ein ChatGPT generiert ja eine neue Form der Antwort und kombiniert dabei Informationen aus unterschiedlichen Quellen zu einem neuen Ergebnis, das eben passend zu meiner Frage ist.

Und wenn dabei personenbezogene Daten verwendet werden, dann kann es ja zu sehr, sehr vielen Fehlern kommen.

Ja, richtig.

Hat dann jemand einen Schadenersatzanspruch?

Ja, also die sachliche Richtigkeit, diesen Punkt mit der sachlichen Richtigkeit und Datenkorrektur, das ist sehr gut, was du da hervorgebracht hast eben.

Artikel 5, da ist es tatsächlich so, dass, also ich will mal ein Gedankenexperiment bemühen, um deine Frage vielleicht, die Antwort auf deine Frage vielleicht ein bisschen zu vereinfachen.

Und zwar, angenommen, du hättest einen ja, so ein Spaßprojekt, da sind Personennamen drin, die öffentlich bekannt sind, zugänglich sind, durch deine Webseite, durch mein oder durchs Telefonbuch.

Und dann generiert er einfach dazu irgendwelche Aussagen, Spaßaussagen.

Die müssen jetzt nicht beleidigend sein, das können irgendwie, Stephan Plesnik ist 2,17 Meter groß oder so, könnte ja auch sein, ja, als Beispiel.

Ich vermute, du bist nicht so groß.

Was natürlich nicht so weit von der Realität entfernt ist.

Also es wäre wahrscheinlich eine Falschaussage.

Oder die Haarfarbe anders benennen oder so.

Wo jetzt, könnte man natürlich sagen, wenn das da gekennzeichnet ist auf der Webseite, dass es eine Spaßaussage ist, oder dass diese Aussage möglicherweise falsch ist und keinen Anspruch auf Richtigkeit erhebt und auch die Daten nicht irgendwo herkommen, wo gesagt wird, dass es so wäre.

Dann würde ich schon sagen, könnte man darüber streiten, ob man da eine Datenkorrektur vornehmen muss, ja.

Bei ChatGPT allerdings, ich habe jetzt nicht jeden Tag dieses Ding benutzt, sondern benutzt aus Forschungszwecken hauptsächlich und zu Untersuchungen bei Datenschutz, sonst interessiert es mich momentan nicht so sehr.

Ich habe andere Möglichkeiten, auch KI-Modelle, die selbst laufen.

Deswegen weiß ich nicht, wie der heutige Stand ist, aber vor ein paar Wochen war es zumindest so, dass ChatGPT überhaupt keinen Hinweis angezeigt hat, dass die Antworten, die es gibt, irgendwie falsch sein könnten, mit Vorsicht zu genießen sind oder dass man irgendwo drauf achten müsste.

Das halte ich schon für rechtswidrig, wenn da so eine Aussage kommt, die falsch ist, die auf eine Person bezogen ist, die nicht geeignet ist, der Person Nachteile zu verschaffen, muss man ja mal sagen.

Darum geht es ja letztendlich.

Wenn jetzt drinstehen würde, Stephan Plesnik ist der beste Basketballspieler der Welt, dann würdest du möglicherweise nicht unbedingt einen Nachteil dadurch haben.

Weiß ich nicht, könnte auch sein, weil vielleicht immer mehr Leute dir Fanpost schicken und am Ende hast du sogar die Leute vor deinem Haus stehen und die würden dich belästigen.

Vielleicht wäre das auch ein Nachteil, der daraus entstehen könnte, aber wahrscheinlich nicht, also grundsätzlich, wenn da eine positive Aussage steht.

Aber ja, klar, Schadensersatz, das muss der Jurist beantworten, aber kann natürlich immer beim immateriellen Schaden, die Höhe des immateriellen Schadens ist egal, hat der EuGH festgestellt, stattfinden.

Und da würde ich schon sagen, dass man da potenziell den Anspruch auf Schadensersatz hat, beziehungsweise eine Stufe vor wäre ja der Anspruch drauf, dass die Daten berichtigt werden oder gelöscht werden, wenn man der Dateninhaber ist.

Und da ist es eben so, dass diese Daten aus einem KI-Modell eigentlich gar nicht herausbekommen werden können, außer man löscht in einem Vokabular den Namen, wenn er denn in Echtform drin steht.

Wenn wir jetzt mal Namen nehmen, die Wortteile enthalten, die auch in normalen deutschen Worten vorkommen können und der Name ist jetzt in drei Stücken abgespeichert.

Plastik zum Beispiel, PL, ES und NIK oder sowas als Beispiel.

Diese Wortfetzen könnten auch in anderen deutschen Worten vorkommen.

Dann kannst du nicht einfach deine drei Wortfetzen rauslöschen, die deinen Namen ergeben, weil sonst würde die ganze KI kein ordentliches Ergebnis mehr liefern.

Das würde nur funktionieren, wenn ich wirklich einen Namen habe, der als ganzes im Vokabular zufällig drinsteht.

Das kommt auf den Kompressionsalgorithmus an und die anderen Worte, die im Korpus sind, die eingelesen werden beim KI-Training.

Das heißt, man kann und wenn man im Vokabular nicht löschen kann, dann kann man im KI-Modell selbst erst recht nicht löschen, weil es ist ungefähr so wie unsere Gehirne beim Menschen.

Da sehe ich keinen grundsätzlichen Unterschied übrigens zwischen KI-Sprachmodellen und menschlichem Gehirn, was die Funktionsfähigkeit, Funktionsweise angeht.

Muss ich leider oder zum Glück, je nachdem wie man es sieht, so sagen.

Da ist es eben so, du kannst ja auch nicht einfach aus deinem Kopf irgendeine Information löschen.

Also das geht einfach so nicht.

Wie soll das gehen?

In den meisten Fällen fällt das schwer, ja.

Ja, also wo selbst mit einer chirurgischen Zange oder so, wüsstest du gar nicht, welche Neuronenverbindung du trennen sollst, damit deine Information verschwindet.

Und genauso ist es im KI-Modell.

Es ist momentan ein ungelöstes Problem, wie aus KI-Modellen Daten gelöscht werden können.

Und das ist so, der einzige Weg, der mir bekannt ist, und ich kenne, ich lese da auch öfter mal was, also und da gibt es keine anderen Sachen, die ich lese, ist eben, man schmeißt das KI-Modell weg und trainiert es neu.

Das klingt jetzt erstmal theoretisch möglich.

Problem, wir reden, wenn wir über ein ganz gutes KI-Sprachmodell reden und mit ganz gut meine ich, ich finde es schon sehr gut, ja.

Der verwöhnte ChatGPT-Nutzer findet es mittelmäßig, ich fände es sehr gut.

Also über ein wie ich finde gutes KI-Modell, dann müssen wir über einen Rechenaufwand mit hochwertigen Grafikkarten, auf denen wird nämlich ein KI-Modell berechnet, die ein Stück Preis von mindestens 2.000 Euro haben, wenn nicht sogar 15.000 oder 20.000, je nachdem welches Modell man da nimmt.

Also da muss man mit einer Rechenzeit von mindestens 200.000 Stunden rechnen, auf den Grafikkarten.

Ich kann also eine Grafikkarte 200.000 Stunden lang rechnen lassen, da werde ich also nie fertig.

Vor allem nicht innerhalb der Zeit, die die DSGVO ja dann zulässt, wahrscheinlich, ja, also ein paar Tage oder Wochen.

Oder ich lasse halt 1.000 Grafikkarten 100 Stunden lang jeweils rechnen, da muss ich aber auch diese 1.000 Grafikkarten haben.

Ja, und wenn ich sie nicht habe, dann muss ich sie mir mieten und beim Mieten komme ich wieder in das Problem mit dem Datenschutz rein, weil wer will schon bei AWS oder bei Google irgendwas mieten, wenn die Daten dann auch bei AWS und bei Google sind.

Also das Problem, ich kann diese Daten nicht rauslöschen.

So, das ist der Punkt.

Ja, und was du angesprochen hast, das Berichtigen ist ja auch dann im Endeffekt eigentlich unmöglich.

Das heißt, wir haben hier wirklich auf jeden Fall auf der, sag ich mal, rechtlichen Ebene der DSGVO haben wir hier ein paar sehr spannende Fragen, die zu sehr hohen Interessenskonflikten zwischen Recht und Gesetz oder Rechtmäßigkeit und aktuellem Vorgehen bestehen, nämlich bei der Speicherbegrenzung, bei der Richtigkeit, bei der Minimierung und bei der Zweckbindung.

Also vier von sechs Punkten, die schwierig sind.

Einen wichtigen Punkt hab ich nämlich noch, es kommt ja, also wichtig ist die Frage auch noch, ob ein KI-Modell überhaupt wortgetreu oder nahezu wortgetreu Texte wiedergeben kann, weil wenn es nämlich nicht so wäre, dann könnte man sagen, okay, das ist vielleicht so abstrus oder so, dass es gar nichts mit der Realität zu tun hat.

Das bezeichnet man als Anekdote eher.

Und ich hab also ein Experiment gemacht und es ist so, dass, also bei ChatGPT ist es eben so, deutsches Modell, da hab ich es geschafft, dass mir wortgetreu der erste Teil des Artikel 1 glaube ich war es, der DSGVO wiedergegeben wurde auf meine Frage hin.

Also wortgetreu als Zitat sozusagen.

Das bedeutet, wir haben eine Webseite, die schreibt irgendwas Schlechtes über dich zum Beispiel.

Und wahrscheinlich, sagen wir mal, es ist eine Lüge, eine diffamierende Lüge.

Und jetzt liest ein KI-Modell diese Lüge ein und gibt sie dann wortgetreu einem anderen Nutzer wieder und du bist die betroffene Person, die dadurch Nachteile erleidet.

Zumindest immateriellen Schaden hätte.

Dieser Fall kann passieren, weil eben KI-Modelle wortgetreu Wiedergaben machen können.

Und du hast ja auch schon gesagt, es gibt ja auch Wiedergaben, die nicht wortgetreu sind.

Die sind wahrscheinlich der übliche Fall und auch noch schlimmer.

Und das liegt eben daran, dass KI-Modelle nicht nur dieses Vokabular haben, sondern im Gehirn sozusagen viele Neuronen haben und die speichern die Reihenfolge-Wahrscheinlichkeit von Begriffen in einem bestimmten Kontext ab.

Also nicht, was folgt als nächstes auf das Wort und?

Das wäre Quatsch, weil da können ja 10.000 verschiedene Worte folgen, sondern was folgt auf das Wort und am wahrscheinlichsten im aktuellen Kontext?

Und der aktuelle Kontext ergibt sich aus der Fragestellung und den vorigen Sätzen der Antwort und vielleicht aus der Chat-Historie auch, wenn man über ein Chatbot nachdenkt.

Also das heißt, genau so macht es ein Mensch auch, sage ich.

Bisher hat mir noch niemand was anderes gesagt.

Natürlich haben wir noch Umwelterfahrung.

Wir laufen durch die Gegend und sehen auch was und können auch physikalische Zusammenhänge aufgrund unserer Beobachtung erkennen.

Das kann ein KI-Modell momentan noch nicht, weil es eben nicht in der Gegend rumläuft.

Aber das ist der einzige Grund, sage ich.

Das heißt, ein KI-Modell speichert sich Wahrscheinlichkeiten, die kontextspezifisch sind und dadurch kommen eben diese Halluzinationen auch zustande, weil so eine Wahrscheinlichkeit kann auch mal, ich sage mal, leicht verrücken und dann kommt halt ein anderes Wort oder ein anderer Teilsatz raus, als der, der ursprünglich in den Originaltexten drin stand.

Da müssen wir auf jeden Fall in Bezug auf die Entwicklung von KI in der Zukunft und auch aktuell deutlich ein Auge drauf haben und ich glaube auch aus mehr Fachrichtungen darüber diskutieren und lernen, als nur jetzt, sage ich mal, so einseitig von der Entwicklerseite oder von der rechtlichen Seite.

Ich glaube, da müssen wir viel umfassender mit umgehen.

Eben wie du sagst, es ist einem Gehirn nachempfunden oder es möchte auch diesen Anspruch haben und so ein Gehirn ist ja nun mal etwas sehr, sehr Komplexes.

Nicht umsonst haben wir das noch nicht entschlüsselt vollständig und ich denke, gerade im Punkt, in Bezug auf das, was du ansprachst, da wird eine Falschaussage getätigt oder da wird ein Zitat wiedergegeben, was eigentlich gar nicht stimmt, ist einer der ersten Schritte, dass halt vielleicht irgendwo so ein Zwang entsteht, dass alle KI-Sprachmodelle immer klar ausgezeichnet sind, dass es von KI generiert und der Anspruch auf Richtigkeit ist nicht gegeben und dass man das doppelt und dreifach vielleicht am besten noch mal gegenprüfen sollte, ob das, was dabei rausgekommen ist, stimmt.

Denn das, was du beschrieben hast, ist mir selbst auch passiert.

Wenn man ChatGPT fragt, schreibt mir einen Blogartikel mit zum Beispiel den fünf wichtigsten Faktoren für gutes Teamwork, dann kopiert er sich einfach nur irgendwelche Absätze aus unterschiedlichen Webseiten zusammen.

Wenn man dann die einzelnen Absätze nimmt und in Google eingibt, findet man sofort den Artikel, wovon es 1 zu 1 kopiert ist, also zitiert ist.

Und ChatGPT gibt darüber keinerlei Hinweis, dass es einfach nur kopiert, also geklaut ist.

Und das ist ein Punkt, wo wir ja über die Frage diskutieren, KI-Modelle, Urheberrechte, Erhaltung von Urheberrechten in KI-Modellen.

Und das ist sehr schön, weil das ist eine super Überleitung zu unserer nächsten Folge.

Denn das war ja ein Thema, was dir auch am Herzen lag und ich finde, da können wir dann den Bogen spannen und in der nächsten Folge mal gemeinsam über diese Tatsache sprechen.

Ich habe auf jeden Fall eine ganze Menge gelernt und fand das sehr spannend, auch mal die DSGVO zur Rate zu ziehen und zu gucken, wo sind denn da die Diskussionspunkte zur Zeit.

Danke dir vielmals, also für diese weitreichenden und auch technologisch fundierten Antworten.

Und ja, ich würde sagen, alle liebe Zuschauer, ich hoffe, Zuhörer natürlich, ich hoffe, es hat euch gefallen.

Und ihr genießt den Rest des Tages und schaltet beim nächsten Mal dann auch wieder ein, wenn Klaus und ich uns die Köpfe rauchig reden über KI und Urheberrechte.

Genau, so machen wir's.

Stephan hat mich auch sehr gefreut, war auch sehr gut, was du da angemerkt hast.

Artikel 5 DSGVO, das ist, glaube ich, ein sehr guter Maßstab, da kann sich jeder dran orientieren, bevor er danach in Artikel 6 guckt, die Rechtsgrundlage.

Genau, die kriegen wir dann ja beim nächsten Mal auf jeden Fall mit unter, die werden da ja eine Rolle spielen.

In diesem Sinne sage ich schönen Tag noch und Tschüss.

Danke dir, Klaus.

Danke auch.

Tschüss.

Das war Datenschutz Deluxe.

Du willst mehr spannende Themen oder Kontakt zu uns?

Dann besuche Klaus Meffert auf seinem Blog Dr. DSGVO und Stephan Plesnik auf seinem YouTube-Kanal Datenschutz ist Pflicht.

Bis zum nächsten Mal. .

Alle Podcast-Folgen

Das Beitragsbild wurde von einer eigenen KI generiert. Diese Art von KI-Programm kann ebenfalls lokal ablaufen, ganz ohne Datentransfers zu Dritten.

Künstliche Intelligenz: Personenbezogene Daten in KI-Modellen (Datenschutz Deluxe Podcast #30)

Beratung für Unternehmen & Organisationen

KI-Schulung:
Webseiten & Apps
bauen ohne Kenntnisse

Künstliche Intelligenz: Personenbezogene Daten in KI-Modellen (Datenschutz Deluxe Podcast #30)

Beratung für Unternehmen & Organisationen

KI-Schulung: Webseiten & Apps bauen ohne Kenntnisse

KI-Schulung:
Webseiten & Apps
bauen ohne Kenntnisse