KI ist das brandheiße Thema, das unseren Alltag bereits revolutioniert hat und weiter erheblich verändern wird. Viele sind auf einmal KI-Experten. Viele fordern eine Regulierung der KI. Viele verharmlosen KI und sagen, KI-Sprachmodelle verarbeiteten keine personenbezogenen Daten. Es folgt ein Abriss, der Missverständnisse klarstellen möchte.
Einleitung
KI wird sowohl unterschätzt als auch überschätzt. Die meisten Menschen, oft auch ich, verstehen nicht, welche Möglichkeiten KI-Systeme bieten. Gestern erst wieder habe ich revolutionäre KI-Ansätze gesehen, die vor 2 Wochen noch nicht bekannt waren. So geht es mir als jemandem, der sich sehr intensiv mit Künstlicher Intelligenz beschäftigt, fast jeden Tag.
Viele denken also, KI wäre ein Hype, der sich schon wieder legen wird. Falsch! Mit dem Transformer-Ansatz wurde 2017 die Intelligenzfunktion des Menschen entschlüsselt, sage ich. Anstatt einen Algorithmus für die Lösung eines Problems zu programmieren, muss ich nur noch genügend Beispiele in mein KI-System, das unter dem Schreibtisch läuft, einfließen lassen. So wurden sogar bisher unbekannte Hieroglyphen entdeckt und entschlüsselt.
Aus der berechtigten Angst vor den negativen Folgen von immer mächtiger werdenden KI-Systemen fordern viele eine Regulierung. Sie sagen aber nicht, wie.
Dann gibt es Verharmloser, die sich als KI-Experten oder rechtliche Ermöglicher profilieren wollen. Sie sagen anderen, wie oder dass sie ChatGPT gewinnbringend nutzen können. Sogar auf der Tagung der DSRI (Deutsche Stiftung für Recht und Informatik) wurde in einem Beitrag behauptet, KI-Modelle würden keine personenbezogenen Daten verarbeiten.
Andere beruhigen, indem sie sich auf das neue informelle Datenschutzabkommen zwischen Europa und den USA berufen. Nur weil jetzt Daten ohne zusätzliche Garantien in die USA geschickt werden dürfen, suggerieren manche, dass jegliche beliebige Datenverarbeitung somit erlaubt sei.
Zu den einzelnen Punkten folgen ein paar Details.
Möglichkeiten von KI-Systemen
Eine KI kann alles, was ein Mensch kann, und noch viel mehr. Vielleicht jetzt noch nicht, aber potentiell (in einem bestimmten Anwendungsgebiet X) schon nächste Woche. Demnächst werden Roboter mit KI-Gehirnen in der Gegen herumlaufen und die Umwelt erfahren. Das wird genau gleich sein zu dem, wie Kinder lernen. Wer an die Stelle der Eltern tritt, wird man sehen. Das können menschliche Trainer sein, aber auch andere Roboter oder Algorithmen.
Ein Beispiel für die rasante Entwicklung: KI-Sprachmodelle konnten nur sehr wenige Zeichen Text gleichzeitig verarbeiten. Diese Textmenge wird als Kontextlänge bezeichnet. Bis vor wenigen Monaten betrug die Kontextlänge in fast allen mir bekannten KI-Sprachmodellen 1024 Zeichen, also ein Kilobyte.
Im Wochenrhythmus stieg die Kontextlänge an, zunächst auf 2048, dann auf 4096, dann auf 8192, dann auf 16.000 Zeichen, später auf 32.000 Zeichen. ChatGPT rühmte sich kürzlich mit 128.000 Zeichen Kontextlänge.
Gestern las ich von einem Ansatz, der in der Forschung schon seit ein paar Monaten bekannt ist. Damit kann eine Kontextlänge von einer Milliarde Zeichen (= 1.000.000.000) auf einmal verarbeitet werden. Kurz nachgerechnet: Vorher = 128.000 Zeichen, einen Wimpernschlag später = 1.000.000.000 Zeichen. Das ist eine Verbesserung um den Faktor 7800. Einfach mal eben so.
Das Moore'sche Gesetze gilt in der Künstlichen Intelligenz nicht.
Basierend auf meinen konkreten Beobachtungen und eigenen KI-Progammierungen.
Statt einer stetigen Steigerung von Leistung oder anderen Faktoren alle 12 bis 24 Monate findet eine erhebliche Verbesserung relevanter KI-Eigenschaften quasi monatlich statt.
Weiteres Beispiel: Der oben genannte Transformer Ansatz hat ein paar Schwächen. Er ist sehr ressourcenhungrig. Selbst Hochleistungsrechner bzw. Grafikkarten benötigen einige Sekunden, um eine Antwort auf eine Frage an den Chatbot zu generieren. Jeder ChatGPT Nutzer weiß, wovon ich rede. Nun gibt es einen Ansatz, der dieselbe Antwortqualität bringt, aber 8 Mal schneller antwortet und nur ein Drittel des teuren und kaum verfügbaren Grafikkartenspeichers für seine Berechnungen benötigt.
Sofern Sie über 50 Jahre alt sind, habe ich eine gute Nachricht für Sie: Die Chance besteht, dass Sie eines natürlichen Todes und in Frieden sterben können. Alle wesentlich jüngeren werden das Ende der Menschheit miterleben, weil KI-Systeme uns massivst übertrumpfen, knechten oder auslöschen werden. Eventuell tritt vorher schon eine andere Katastrophe ein, aber darum geht es in diesem Beitrag nicht.
Ist KI nur Statistik?
Die Frage ist irrelevant. Es spielt ja auch keine Rolle, ob das menschliche Gehirn auf statistischen Prozessen basiert. Wichtig, was am Ende dabei rauskommt. Offensichtlich basiert unsere gesamte Existenz auf statistischen Prozessen. Vergleiche hierzu die Quantenphysik, einer sehr elementaren und leistungsfähigen Theorie. Der Quantenphysik liegt zugrunde, dass das Verhalten eines mickrigen Teilchens unserer Existenz nicht wirklich vorhergesagt werden kann. Vielmehr kann nur eine Aussage über Teilchen gemacht werden, wenn viele betrachtet und der Durchschnitt aus den Beobachtungen gezogen wird.
Offensichtlich basiert die deutsche Grammatik darauf, dass wir lernen, welche Worte typischerweise aneinandergereiht werden und zusammen passen. Das ist auch Statistik. Darüber redet aber kaum jemand.
Die Regulierung von KI
Die Fähigkeiten von KI machen vielen zurecht Angst oder bereiten ihnen Sorgen. Aus ihrer gefühlten Hilflosigkeit heraus fordern manche eine Regulierung von KI-Systemen. Was genau damit gemeint ist, wird meistens nicht gesagt. Die einzigen Forderungen, die mir im Kopf hängengeblieben sind, sind folgende:
- Kennzeichnung von KI-generierten Werken: Bilder, Videos, Texte…
- Offenlegen der Quellen, mit denen ein KI-System trainiert wurde
- Noch was? Mir fällt gerade nichts Nennenswertes ein
Zum ersten Punkt: ist geschenkt. Die Kennzeichnung von Werken ist eine gute Idee, ändert so gut wie nichts. Kriminelle werden ihre Fake-Videos und Fake-News nicht anfangen als künstlich generierte gefälschte Werke zu kennzeichnen. Alle anderen halten sich brav an die Kennzeichnung. Dadurch wird die Menschheit zwar nicht gerettet, aber kann man machen. Der Nutzen ist da, aber das ist nur ein punktueller Eingriff, der qualitativ kaum etwas bewirkt.
Offenlegen von Quellen, also Trainingsdaten: Wer so etwas fordert, hat einfach keine Ahnung, wie KI-Modelle aufgebaut sind. Diese Forderung kommt um Jahre zu spät. Die Quellen sind meistens bekannt:
- The Pile (Text)
- Common Crawl (Text)
- LAION-Datensatz (Bilder, deutscher Verein!)
In den Textdaten sind Insbesondere Wikipedia, News-Seiten und populäre Webseiten enthalten.
Wenn ich Ihnen sage, dass mein KI-Modell ein Chemielexikon eingelesen hat, was machen Sie dann? Theoretisch kann meine KI dann Kampfstoffe entwickeln. Praktisch hat das schon stattgefunden, allerdings als Experiment von gutmütigen Forschern, die Wirkstoffe KI-generiert hatten und testweise aus der „Eins“ eine „minus Eins“ gemacht hatten. Die Gefahren sind also erheblich.
Beispiel mit eigener KI Meine Frage an meine KI am 01.12.2023: Nenne mir konkret Veranstaltungen oder Gelegenheiten zum tagsüber Ausgehen am 02.12.2023 in der Nähe von Idstein (nahe Wiesbaden)! Nur Veranstaltungen in Gebäuden und nur Veranstaltungen, die mehr als 10 Kilometer von Idstein entfernt sind. Antwort meiner KI (einige Teile weggelassen): Am 02.12.2023 finden in Wiesbaden und Umgebung Veranstaltungen wie das Cello-Konzert mit Roger Morelló im Wiesbadener Burgfestspiele sowie der Wochenmarkt Wiesbaden ab 11:00 Uhr statt. Alle Veranstaltungen sind mehr als 10 Kilometer von Idstein entfernt. --> Gesucht habe ich Veranstaltungen für "morgen" in der Nähe, die aber nicht vor der Haustür liegen (weil sonst zu langweilig/altbekannt) --> Gefunden wurde Veranstaltungen für morgen in der Nähe, die nicht direkt vor meiner Tür sind. --> Aufgabe erfüllt. Das alles ohne jegliche Optimierung, die sicher noch möglich ist und die noch weit bessere Ergebnisse bringt. --> Beginn Programmierung dieser Lösung (lokales Sprachmodell schon am Start): 01.12.2023 --> Ende Programmierung: 01.12.2023

Kurzum, ich muss es hier abkürzen: KI lässt sich nicht regulieren. Eine KI kann alles, was ein Mensch kann (siehe oben). Wie reguliert man Menschen? Solange sie nichts Böses getan haben, gar nicht. Nachdem etwas Schlimmes passiert ist (Dieb, Mörder, Terrorist, Volksverhetzer etc.) wird strafverfolgt. Dann ist es aber zu spät. Soweit ich weiß, gelang es in Demokratien noch nie und gelingt es auch jetzt nicht, einem Menschen das Denken zu verbieten. Eine KI kann aber viel schneller, länger und (sehr bald) besser denken als ein Mensch.
Übrigens halte ich die Frage, ob eine KI Urheber eines Werkes sein kann, für weitgehend unsinnig. Denn wenn ich ein Bild von meiner eigenen KI (ohne Wasserzeichen) vorgenerieren lasse und dann behaupte, es ist mein Werk, dann werden Sie mir das Gegenteil nicht oder nur unter allergrößter Anstrengung aufzeigen können. Vor allem können KI-generierte Bilder oder Musikstücke ja noch manuell nachbearbeitet und erweitert werden.
Verarbeiten Sprachmodelle personenbezogene Daten?
Ja, fast immer. Und zwar immer dann, wenn
a) in den Trainingsdaten personenbezogene Daten vorkommen oder
b) der Nutzer in seiner Eingabe (Prompt) an den Chatbot personenbezogene Daten verwendet.
Punkt a) ist bei allen mir bekannten Sprachmodellen gegeben. Siehe beispielsweise die riesigen Trainingsdatensätze The Pile und C4 (Collosal Cleaned Common Crawl), die in allen gängigen Chatbot-Modellen Verwendung finden.
Anscheinend wünschen sich manche, dass KI-Systeme keine personenbezogenen Daten verarbeiten. Die Realität sieht so aus: KI-Sprachmodelle verarbeiten personenbezogene Daten und speichern diese auch.
Manche akzeptieren das und behaupten dann, personenbezogene Daten könnten automatisch erkannt und anonymisiert werden. Das ist Bullshit. Jeder, der das behauptet, hat weder Ahnung von Künstlicher Intelligenz noch von Datenschutz. Leider gibt es ganz besonders naive Menschen und Organisationen, die für angebliche Lösungen, die haltlose Versprechen bezüglich der Anonymisierbarkeit von Daten machen, auch noch eine Nominierung zu einem Innovationspreis aussprechen.
Privacy Shield II (Data Privacy Framework)
Rein formal ist die Datenschutzwelt für den Datentransfer zwischen der EU und den USA wieder heile. Der Vorwurf, der zum EuGH-Urteil Schrems II und zum ungültigen Privacy Shield führte, war ja, dass die USA ein Geheimdienststaat sind (FISA 702, EO12333, Cloud Act). Anscheinend wurde das mit dem Data Privacy Framework (DPF) wegdiskutiert und wird wahrscheinlich demnächst vom EuGH wieder einkassiert.
Es geht darum, dass personenbezogene Daten jetzt wieder ohne besondere Garantien aus der EU in die USA übertragen werden dürfen. Daraus leiten manche Dummköpfe ab oder suggerieren, dass nun jegliche Datenverarbeitung in den USA erlaubt sei.
Richtig ist, dass jegliche Verarbeitung personenbezogener Daten gemäß einer der Rechtsgrundlagen aus Art. 6 (1) DSGVO erfolgen muss. Und ja, es werden immer personenbezogene Daten an ChatGPT übertragen, wenn die ChatGPT Oberfläche benutzt wird. Die IP-Adresse ist personenbezogen und wird immer übertragen. Leider hält sich OpenAI nicht so gerne an Datenschutzregeln, weil dann ja die eigene KI nicht so gut verbessert werden kann. Auch Microsoft als Anteilseigner von OpenAI ist nicht so sehr an Datenschutz interessiert. Siehe das neue Outlook, das sich sogar Ihren Benutzernamen und Ihr Passwort Ihrer Mail Accounts nimmt und Ihre Daten und die Ihrer Mail-Korrespondenz abruft und analysiert. Von den Sicherheistsproblemen von Microsoft (Azure), die Microsoft heruntergespielt und lange nicht (jetzt vielleicht?) gelöst hat, ganz zu Schweigen.
KI-Experten
Bemerkenswert sind die KI-Aufsätze vieler, die keinerlei oder nur sehr wenig Ahnung von Technik haben. KI basiert in ganz erheblichem Maße und mehr als fast alle anderen Errungenschaften auf Technik. Wie kann dann jemand, der davon wirklich nichts oder nur sehr wenig versteht, kompetente Aussagen treffen?
Dann gibt es ChatGPT-Jünger, die Geld mit Empfehlungen und Prompt-Verbesserungen verdienen möchten. Die verstehen wenigstens etwas von Technik, nämlich, dass man eine Computer-Maus nicht nutzt, um (wie Scotty) in die Maus reinzusprechen, sondern um mit ihr einen Cursor auf dem Bildschirm zu bewegen. Gilt nur für alle, die ab und zu mal den PC mit seinem unnötig großen Monitor und der unnötig effizienten Tastatur nutzen statt einer völlig ausreichend mickrigen Smartphone Tastatur samt Bildschirm für Menschen in den Jahren mit der besten Sehstärke.
Diese ChatGPT-Jünger, die womöglich ein Mini-Technik-Wissen haben und wissen, wie man das Internet bedient, haben aber leider oft bis fast immer keinerlei Ahnung von oder Interesse an Datenschutz.
ChatGPT ist ein tolles System und für unverfängliche Aufgaben durchaus guten Gewissens nutzbar. Aber was ist denn mit sensiblen Daten?
Grenzen von KI
Noch ist es so, dass insbesondere Sprachmodelle (LLMs) oft halluzinieren, also Falschaussagen liefern. Das wird auch so bleiben, sage ich. Oder würden Sie behaupten, dass Menschen keine Falschaussagen treffen? Selbst Experten sagen oft falsche Dinge, die sie später – Einsicht vorausgesetzt – revidieren. Anscheinend hat es die Menschheit in einigen Millionen Jahren der Existenz nicht geschafft, an ihrer Unzuverlässigkeit etwas zu ändern. Warum soll das bei künstlichen Systemen anders sein?
KI kann sicher in vielen Bereichen zuverlässiger sein als der Mensch und in Teilbereichen auch extrem zuverlässig. Aber wenn es um das Zusammenfassen von Klageschriften vor Gericht geht, dann versagt bei mir das Verständnis, wie man hierfür eine KI als Lösung ansieht.
Datenfreundliche KI-Systeme
Datenschutz interessiert viele Unternehmen nicht. OK, dann nehmen wir Geschäftsgeheimnisse. Wer gibt mir sein Geschäftsgeheimnis? Wieso denn nicht? Wenn mein Name ChatGPT ist, geben Sie es mir dann?
Es soll Dokumente geben, für die vertraglich Vertraulichkeit vereinbart wurde. Viele nennen das NDA (Non Disclosure Agreement). Wenn Sie ein solches Dokument in ChatGPT reinladen, um den Chatbot um eine Zusammenfassung zu bitten, haben Sie dann nicht bereits die Vertraulichkeit verletzt? Ich sage: Ja
Noch schlimmer wäre es nur, wenn Sie das neue Outlook nutzen, um vertrauliche Dokumente zu verschicken. Denn dann erhält Microsoft auromatisch tiefer gehende Kenntnis davon.
Was viele Unternehmen noch nicht verstehen: ChatGPT kann vieles nicht und vieles schlechter als eigene KI-Systeme. Eine Lösung sind autarke KI-Systeme, die Ihrem Unternehmen gehören. Nicht nur, dass damit das Datenproblem gelöst ist, denn Sie entscheiden, ob Daten Ihr System verlassen und falls ja, welche Daten und an welche Empfänger die Daten gehen sollen.
Täglich kann ich mir als Programmierer neue Software-Bibliotheken herunterladen, um in Minuten Probleme zu lösen, die zuvor Jahre an Aufwand verursacht hätten – oder gar nicht lösbar waren.
Zusätzlich, und das ist wohl für viele interessanter, können eigene KI-Systeme jederzeit und ohne Mühe auf Ihr Unternehmenswissen zurückgreifen und Ihnen Fragen dazu beantworten. Der Einstieg in ein eigenes KI-System könnte eine intelligente Dokumentensuchmaschine sein oder ein KI-Tool für die Datenanalyse. Nach der Dokumentensuche können Sie nahtlos zu einer Frage-Antwort-Maschinen übergehen. Wenn Sie wüssten, was jetzt schon alles möglich ist, würden Sie die letzten Jahre Ihrer Existenz noch mehr genießen.
Übrigens sind eigene KI-Systeme nicht teuer. Wir reden nicht von Raketenprojekten mit hunderten oder tausenden Personenstunden Aufwand. Ein erstes KI-System kann in Kürze errichtet werden.
Fazit
KI ist keine Modeerscheinung, sondern ein Zustand, der bis zu unserem Ende existieren wird. Die Frage ist nicht, ob KI so leistungsfähig sein wird, dass wir darunter leiden werden, sondern wann. Diese Entwicklung lässt sich nicht mehr aufhalten.
Zur Begründung sei gesagt, dass jeder jederzeit fast das gesamte geballte KI-Wissen samt KI-Software-Bibliotheken und KI-Modellen (= elektronische Gehirne) auf seinen eigenen Computer laden und nutzen kann.
KI bietet Möglichkeiten, die viele sich einfach noch nicht vorstellen können.
Gruß an Prof. Schmidhuber, den deutschen KI-Pionier, der das laut meiner Wahrnehmung vor einigen Monaten noch anders sah. Heute vielleicht nicht mehr.
Sie werden das Ende der Menschheit bedeuten.
Regulierung wäre nur dann möglich, wenn jeder Computerkauf und jeder Download aus dem Internet überwacht werden würde. Die Erkenntnisse, die ich täglich neu dazu gewinne, lassen mich erschaudern ob der massiven Möglichkeiten, die KI bietet. Ich rede hier davon, dass mir als Programmierer diese Möglichkeiten genau jetzt offenstehen und "morgen" noch mehr. Dazu reicht eine Recherche in einschlägigen Quellen, die ich täglich eine Stunde lang betreibe, gestern noch länger und bis halb ein Uhr nachts, weil die Möglichkeiten, von denen ich gelesen und für die ich Programmcodes gesehen habe, so faszinierend und atemberaubend sind. Das war auch der Auslöser für diesen Beitrag.
Viel Spaß beim Genießen der letzten Jahre Ihrer gewohnten Existenz!
Kernaussagen dieses Beitrags
KI-Technologie entwickelt sich rasant und wird bald so leistungsfähig sein, dass sie unser Leben grundlegend verändern wird.
KI-Entwicklung übertrifft menschliche Fähigkeiten bald .
KI lässt sich nicht regulieren, da sie alles kann, was ein Mensch kann, und viel schneller und länger arbeitet.
KI-Systeme verarbeiten oft personenbezogene Daten und können diese nicht zuverlässig anonymisieren.
ChatGPT kann zwar hilfreich sein, aber es ist nicht perfekt und birgt Risiken für die Datensicherheit. Unternehmen sollten eigene KI-Systeme nutzen, um ihre Daten besser zu schützen.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.



Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Mikrotypos (um 1 in der Nacht? 😉 ):
weil KI-Systeme und massivst übertrumpfen –> weil KI-Systeme uns massivst übertrumpfen
ChatGPT kann viele nicht und vieles schlechter als eigene KI-Systeme. Eine KI-Systeme sind autarke KI-Systeme, die Ihrem Unternehmen gehören.
–> ChatGPT kann vieles nicht und vieles schlechter als eigene KI-Systeme. Eine Lösung sind autarke KI-Systeme, die Ihrem Unternehmen gehören.
Ansonsten … bin über 50; denk trotzdem drüber nach …
Grüße
Vielen Dank für die wie immer gute Rückmeldung!
Ist korrigiert sowie zwei weitere Schreibfehler 😉
Auch rein unternehmensintere KI hätte zu segmentieren, um den Datenschutz einzuhalten. Nicht über Zuständigkeitsgrenzen hinweg Daten aufsaugen, die nur bestimmten Bearbeitern bekannt sein dürfen. Need to know. In diesen Fällen muss wie in der (fast hätte ich geschrieben "analogen") KI-losen Welt pseudonymisiert werden. Notfalls per Hand. Bis eine Abteilunngs-KI sich das fehlerfrei zutraut.
D., der bei KI ebenso davon ausgeht, dass pbDaten im Spiel sein können und der dieselben Anforderungen wie sonst auch stellt; nämlich DS-Grundsätze wie Rechtmäßigkeit, Transparenz etc. und die jeweiligen spezifischen Vorschriften. KI ist nichts Besonderes, nur eine anders beschriftete Schublade.
Ja, natürlich gelten Datenschutzregeln immer.
Aber sie sind viel einfacher einzuhalten oder überhaupt einzuhalten, wenn Daten nur dahin fließen, wo sie hinfließen sollen. Eigene KI-Systeme bieten hier volle Kontrolle.
Was das Einlesen angeht, gilt u.a. § 44b UrhG. Es gibt viele öffentliche Quellen, die "gefahrlos" nutzbar sind. Unternehmenseigene Dokumente sind sowieso da und können in die KI einfließen. Wenn die KI im Unternehmen dann eine Antwort gibt, die datenschutzrechtlich kritisch ist, ist das immerhin beherrschbar.
Einen maximalen Datenschutz gibt es in der Praxis meiner Kenntnis nach so gut wie nie, egal in welchem Prozess.
An KI wird allerdings kein Weg mehr vorbeiführen. Insofern ist meine Empfehlung, die Risiken zu minimieren, und zwar mit eigenen KI-Systemen.