Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

KI-Regelung in der EU: Großer Knall oder Fehlstart?

Deutsche Version (Original)
3
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

KI basiert auf Massendaten. Die EU schützt Daten von Personen oder Urhebern besonders gut. Das ist an sich gut, schadet aber bei der Entwicklung von wettbewerbsfähigen KI-Systemen. Weitere Gründe sprechen gegen leistungsfähige Sprachmodelle made in Germany. Lässt sich dieses Dilemma auflösen?

Einleitung

Die häufigsten Anwendungsfälle für KI sind wohl Sprachmodelle (LLMs) und Bildmodelle. Möglicherweise kommen bald Videogeneratoren oder Objekterkenner hinzu. Dieser Beitrag konzentriert sich daher der Einfachheit halber auf LLMs. Die Erkenntnisse sind überwiegend oder gänzlich auf viele weitere Modellarten, wie etwa Klassifikatoren oder medizinische Befundsysteme, übertragbar.

Aktuell kommen alle wettbewerbsfähigen Sprachmodelle aus Ländern, die außerhalb der EU liegen. Mistral mag eine kleine Ausnahme sein, wenngleich deren Sprachmodelle nicht ganz vorne dabei sind.

Aleph Alpha ist keine Ausnahme, denn deren neues Modell Pharia-1 schneidet in Benchmarks mittelmäßig ab, um es höflich zu formulieren.

Manche glauben, die EU könne vielleicht doch noch aufholen. Das wird nicht passieren. Denn für leistungsfähige Sprachmodelle ist genau eine einzige Sache notwendig: Daten. Nichts weiter. Kein Personal. Keine Technologie. Kein Geld. Keine Zeit. Nichts außer sehr vielen, möglichst repräsentativen Daten fehlt. Selbstverständlich sollten die Daten rechtskonform sein. Somit stehen noch weniger Daten zur Verfügung.

Für sehr gute Sprachmodelle gibt es genau eine wichtige Zutat, die in Europa fehlt:

Daten.

Alles andere ist jederzeit vorhanden: Eine (!) Person, ein (!) bis wenige Server, bester Programmcode für das KI-Training.

Die Gründe für das Zurückbleiben der EU in Sachen KI sind im wahrsten Sinne des Wortes verordnet.

Datenschutzgesetze

Datenschutz ist sehr wichtig. Zahlreiche Skandale belegen das, die Skandale vor allem außerhalb Europas ihren Ursprung haben. Hier ein paar Beispiele:

In den USA wurde eine sehr wichtige Präsidentschaftswahl dadurch beeinflusst, dass Analysedaten der Nutzer von Google und Facebook (Meta) rechtswidrig verwendet wurden ("Cambridge Analytica").

Microsoft wird von prominenten Stellen in den USA als Sicherheitsrisiko für die USA bezeichnet. Der Grund ist die mangelnde Datensicherheit bei Microsoft.

Meta ist nicht besser als Microsoft, sondern eher schlechter. Denn Microsoft verdient wenigstens nicht nur Geld mit Daten, sondern auch mit Produkten. Meta hat nichts außer Daten von Nutzern. Diese Nutzerdaten werden maximal vermarktet. Datenschutzgesetze wie die DSGVO sind dabei eher hinderlich.

Über Google kann ähnlich Negatives berichtet werden. Dass manchmal Straftäter dadurch gefasst werden können, dass US-Sicherheitsbehörden die Nutzung von Google Produkten auswertet, beruhigt nicht wirklich. Wer als unbescholtener Bürger zur falschen Zeit am falschen Ort ist, wird schnell zum Straftäter abgestempelt und verrottet unschuldig im Gefängnis oder muss gar mit der Todesstrafe rechnen.

Die DSGVO als Verordnung hat einen sehr guten Grundgedanken. Sie wurde erlassen, als KI noch kein Thema war. Sie ist an sich sehr sinnvoll. Doch warum wird sie faktisch nicht angewandt? Deutsche Datenschutzbehörden sanktionieren faktisch nur in homöopathisch feststellbaren Dosen.

Die DSGVO erlaubt die Nutzung von personenbezogenen Daten für das KI-Training faktisch nur auf Grundlage des berechtigten Interesses (vgl. Art. 6 Abst. 1 DSGVO). Die Einwilligung scheidet bei Massendaten aus. Ein Vertrag wird für Massendaten rechtlich schwierig sein.

Schlimmer noch: Für Behörden steht das berechtigte Interesse als Rechtsgrundlage NICHT zur Verfügung (steht im eben genannten Artikel 6 Absatz 1 DSGVO nach dem Buchstaben f). Behörden können somit KI-Systeme faktisch nicht trainieren. Das ist besonders schade, denn gerade Behörden hätten viele wertvolle Daten, die auch Bürgern wieder zugute kommen könnten.

Die DSGVO gilt "nur" für personenbezogene Daten, zu denen auch pseudonyme Daten gehören (Art. 4 Nr. 1 DSGVO). Für anonyme Daten gilt die DSGVO nicht.

Doch anonyme Daten gibt es faktisch nicht, wenn man es etwas überspitzt formuliert. Gemeint ist:

  1. Anonyme Daten sind Daten, für die die Originaldaten nicht mehr zugänglich sind (sehr seltener Fall).
  2. Anonyme Daten sind nicht so repräsentativ wie Originaldaten und somit weniger wertvoll für das KI-Training.
  3. Die Anonymisierung selbst ist ein Datenverarbeitungsvorgang. Dieser darf von Behörden faktisch gar nicht durchgeführt werden. Andere dürfen ihn faktisch nur vollziehen, wenn das berechtigte Interesse greift, was schwierig zu beurteilen ist.

Wir reden hier von der Praxis. Was in der Theorie gilt, interessiert kein Unternehmen der Welt, das konkrete Probleme lösen möchte. Theoretische Diskussionen lassen eines vermissen, nämlich den Praxisbezug.

Faktisch dürfen also Massendaten alleine schon aus Datenschutzgründen nicht in ein KI-System einfließen, beispielsweise für das Training der KI.

Dies gilt auch für öffentliche Daten im Internet. Folgende Fälle sind problematisch:

  1. Jemand schreibt etwas über eine andere Person. Das kann eine Tatsachenaussage sein, oder auch eine Verleumdung. Die andere Person will diese Information nicht öffentlich wissen und erst recht nicht in einem KI-Sprachmodell gespeichert vorfinden.
  2. Eine Person veröffentlicht selbst Informationen über sich. Eine KI speichert diese Informationen, weil die Webseite der Person von einem Crawler eingelesen wird. Später entscheidet sich die Person, die Informationen zurückzunehmen. Sie verlangt dies dann auch vom Betreiber der KI. Doch leider lassen sich Daten aus KI-Modellen nicht löschen. Versuchen Sie mal, eine Information aus Ihrem Kopf herauszulöschen. Geht auch nicht. Ihr Gehirn und das KI-Gehirn sind beides neuronale Netze. Hier gibt es keinen Unterschied. Glauben Sie es oder auch nicht. Wichtig ist, dass aus KI-Modellen Informationen nicht herausgelöscht werden können.

Wiederholung: Aus Datenschutzgründen dürfen Massendaten für das KI-Training in der EU nicht verwendet werden. Dies ist zumindest in einigen Fällen eine eher unerwünschte Begleiterscheinung der ansonsten sehr sinnvollen DSGVO.

Urheberrecht

Das deutsche Urheberrecht erlaubt über § 44b UrhG das KI-Training mit urheberrechtlich geschützten Werken. Diese Werke dürfen für das KI-Training sogar kurzfristig gespeichert werden.

Ein Werk ist automatisch urheberrechtlich geschützt, wenn es (von einem Menschen) geschaffen wird. Urheber will man nicht werden, man wird es automatisch. Das ist analog mit dem Zeugenstatus: Wenn Sie eine Tat gesehen haben, sind Sie Zeuge. Sie können es sich nicht aussuchen, ob Sie Zeuge sein wollen oder nicht. Sie sind Zeuge geworden oder eben nicht.

Leider hat der deutsche Gesetzgeber die falschen Berater gehabt, als er den §44b UrhG erdacht hat. Denn in diesem Paragraphen ist eine verquere und sehr praxisferne Widerspruchsmöglichkeit für Urheber genannt.

Urheber dürfen widersprechen, dass deren Werke in KI-Systemen landen. Dieser Widerspruch bzw. Vorbehalt muss laut deutschem Gesetzeskommentar entweder im Impressum oder den AGB der Webseite formuliert sein (siehe Drucksache 19/27426, S. 89, 2. Absatz). Doch wie?

Die robots.txt Datei ist ein anerkannter und weit verbreiteter Branchen-Standard. Dieser Standard ist perfekt maschinenlesbar. Anscheinend wusste das keiner der Berater, die die Bundesregierung beraten hatten. Auch war anscheinend unbekannt, dass in den AGB oder im Impressum typischerweise keine Maschinenlesbarkeit vorherrscht. Oft ist es mit Beratern anscheinend so: Ein Berater will weiter Berater bleiben; deshalb vermeidet er negative Einwürfe oder drückt sich absichtlich oder aus sprachlicher Inkompetenz heraus dermaßen kompliziert aus dass niemand es versteht. Der deutsche Standard ist das Gegenteil des Branchen-Standards: Er ist nicht maschinenlesbar, kein Standard und nicht weit verbreitet. Kurz: der deutsche Standard is aus praktischer Sicht unbrauchbar.

Noch schlimmer: Wenn Sie eine Webseite einlesen und deren Inhalte für das Training eines KI-Modells nutzen wollen, müssen Sie später im Zweifel nachweisen können, dass der Webseitenbetreiber dem nicht widersprochen hatte, als Sie dessen Webseite eingelesen hatten. Das will der deutsche Gesetzgeber so.

Leider kann niemand rechtssicher (in der Masse!) beweisen, dass zum Zeitpunkt X auf den Webseiten Y, Z sowie auf den zehn Millionen Webseiten A1 bis A10000000 KEIN Urhebervorbehalt vorhanden war. Sie müssten die gesamte Webseite einlesen, um Impressum und AGB-Seiten zu finden. Was ist, wenn es zwei Impressi gibt? Das passiert durchaus. Manche Webseitenbetreiber könnten das sogar aus Bosheit tun, um Sie zum Rechtsbruch zu verleiten.

Fazit: Das deutsche Urheberrecht macht es unmöglich, Massendaten aus deutschen Webseiten in rechtssicherer Weise einzulesen.

Bürokratie und Demokratie

Statt Bürokratie müsste es Bürocrazy heißen (der Wortwitz funktioniert im Englischen besser).

Demokratie ist für viele das kleinste Übel unter allen Übeln. Dem kann man zustimmen. Dennoch bleibt die Demokratie damit ein Übel.

Ein Beispiel zeigt das sehr schön. Eine Definition für eine Technologie oder ein technologisches Konzept sollte nicht durch eine Beratschlagung von 27 Parteien (jeweils mit mehreren Personen) stattfinden. Genau dies passierte aber, als die EU Kommission sich im Rahmen des AI Acts eine Definition für "KI-System" ausdachte. Die OECD hat noch mehr Mitglieder. Der Autor dieses Beitrags hatte ein paar Verbesserungsvorschläge für die Definition von KI, die die OECD gab. Einer der Hauptautoren der Definition schrieb daraufhin (sinngemäß) zurück, es sei unmöglich, die Definition noch anzupassen. Wörtlich schrieb er: "You'd have to convince more than 30 national delegations to accept any further edits!" Das war's mit dem Fortschritt.

Auch die Anpassung der DSGVO an das KI-Zeitalter ist aufgrund von Bürokatie nicht möglich. Sie dauerte Jahre. Im KI-Zeitalter sind bereits Wochen eine kleine Ewigkeit.

Die EU-Definition von Künstlicher Intelligenz kann nur als unglücklich und falsch bezeichnet werden. Sie definiert ChatGPT, den aktuell besten und herausragenden Chatbot, nicht als intelligent. Somit sind die meisten Menschen nicht intelligent, denn ChatGPT kann meistens bessere Antworten geben als die meisten Menschen auf diesem Planeten. Vielleicht sind Menschen doch nicht so intelligent?

Die Definition der EU, was ein KI-System ist, lautet:

 „System der künstlichen Intelligenz“ (KI-System) ein maschinengestütztes System, das so konzipiert ist, dass es mit unterschiedlichem Grad an Autonomie operieren kann und das für explizite oder implizite Ziele Ergebnisse wie Vorhersagen, Empfehlungen oder Entscheidungen hervorbringen kann, die das physische oder virtuelle Umfeld beeinflussen;

Quelle: Gesetz über Künstliche Intelligenz (siehe Abänderung 163)

Kurzkritik an der EU-Definition von KI

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Kommentare von Lesern

Die Kommentare drücken die Meinungen der jeweiligen Kommentargeber aus
  1. Kai

    Hallo Herr Meffert, vielen Dank für Ihr Pamphlet (im besten Sinne). Eine Nachfrage: "Für Behörden steht das berechtigte Interesse als Rechtsgrundlage NICHT zur Verfügung…" Aber es gibt doch die "lex Behörde" Art. 6. Abs. 1 S1 lit e: "…die Wahrnehmung einer Aufgabe, die im öffentlichen Interesse liegt…" Und die Nutzung von KI-Lösungen an sich liegt ganz sicher im öffentlichen Interesse. Dass dennoch unlösbare Rechtsprobleme entstehen, würde ich ja unterschreiben, aber sie liegen in der Natur der KI, nicht in der Rechtsgrundlage. Meine ich.

    Beste Grüße

    • Dr. DSGVO

      Vielen Dank für Ihre gute Rückmeldung und den Hinweis auf lit. e!
      Mir ist jedenfalls ein Behördenvertreter bekannt, der dieses öffentliche Interesse als Rechtsgrundlage für das KI-Training nicht sieht. Ähnlich scheinen es ein paar Vertreter einer Datenschutzbehörde zu sehen, mit denen ich kurz darüber sprach.
      Ich frage bei Gelegenheit mal nach, wie die Sichtweise hierzu bei den Behörden selbst ist.
      Jedenfalls finde ich bei Suche nach "was ist das öffentliche Interesse?" eher übergeordnete Motive, die über feinteilige Vorteile (wie bessere Auskünfte für Bürger an Ort X) hinauszugehen scheinen.

      Wir sind uns sicher einige, dass die Rechtsprobleme aus KI resultieren und größtenteils nicht aus der DSGVO (wohl aber schon aus dem deutschen Urheberrecht).
      Allerdings fehlen in der DSGVO womöglich Öffnungsklauseln, um eben das Problem der Datennutzung in Forschung und Behörde besser lösen zu können.
      Weiterhin fehlt es a) an Geschwindigkeit, um die DSGVO anzupassen und b) an dem Willen in Deutschland, Sanktionen gegen US-Datensündern u.ä., oder auch Verwender dieser Lösungen auszusprechen. Andere Länder machen es viel besser. Beispielsweise Dänemark in letzter Zeit.

      • Kai

        Vielen Dank für die Antwort in beinahe Echtzeit :–) Die Aufsichtsbehörden genießen aber auch wenig politische Unterstützung, man zieht nicht gemeinsam am Strang.

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

Training von KI-Modellen: Was bedeutet das?