Wie funktioniert Künstliche Intelligenz (KI) und warum ist KI ab jetzt revolutionär und weltbewegend? Was sind die rechtlichen Bedingungen für die Verarbeitung von Massendaten zum Anlernen eines elektronischen Gehirns? Und wie sieht es mit der Speicherung von Nutzereingaben und der Ausgabe von Bildern und Texten aus? Auszug aus einem meiner Vorträge.
Einleitung
Wer wenig von KI versteht, nutzt oft Begriffe wie ChatGPT als Platzhalter, um interessant zu wirken. Viele meinen, ChatGPT sei eine Suchmaschine. Spoiler: Das ist kompletter Unsinn. ChatGPT hat einen nach heutigen Maßstäben uralten Datenbestand. Das ist Absicht und gewollt. Denn ChatGPT dient als Antwortmaschine und nicht zum Auffinden von aktuellem Wissen.
Wer mehr von KI versteht und den Aktienmarkt im Blick hatte, hat sich vor einiger Zeit Nvidia Aktien gekauft und seitdem eine gigantische Kurssteigerung feststellen können. Denn Nvidia ist Hersteller der Grafikkarten, die als absolute Platzhirschen gelten, wenn es um KI-Anwendungen geht.
Ich sage den Untergang des Aktienmarkts in seiner jetzigen Form voraus, weil bald jeder Vorhersagen über Aktienkurse mit weit über 50 % Wahrscheinlichkeit treffen kann.
Meine Theorie mitsamt der Annahme, dass mir dies selbst demnächst gelingen wird.
Woran liegt das? Ganz einfach: Eine Grafikkarte wie die Nvidia Geforce RTX 3070 hat 5888 Kerne in ihrer GPU. Die GPU ist der Prozessor der Grafikkarte. Im Unterschied dazu steht die CPU, der klassische Prozessor eines Computers. Gute heutige Intel-Prozessoren haben 10 oder ein paar mehr Kerne.
Ein Intel-Kern ist mathematisch sowas wie ein Albert Einstein (der als Physiker sehr gut rechnen konnte). Ein Nvidia GPU Kern ist ein mäßig begabter Mathematiker. KI-Algorithmen basieren zufällig auf Rechenoperationen, die besonders gut auf Grafikkarten-Prozessoren (GPUs) ausführbar sind. Während der Albert Einstein-Kern eine Multiplikation spielend leicht durchführt und sich die halbe Zeit lang langweilt, ist der GPU-Mathematiker stark beansprucht, wird aber fast genauso schnell mit dieser lapidaren Rechenoperation fertig.
Dummerweise benötigen 5888 parallel arbeitende Durchschnittsmathematiker für, sagen wir, 100.000 einfache Multiplikationen weit weniger Zeit als 10 gleichzeitig wütende Einsteins. Während der mit einer Grafikkarte bestückte PC schon längst mit der K-Berechnung fertig ist, denkt man, dass der rein Intel-getriebene PC hängen geblieben wäre. Man darf bei der Grafikkarte mit einer Leistungssteigerung des Faktors 50 oder mehr rechnen. Die Grafikkarte wird also nicht zum Anzeigen von Bildchen oder Videos oder Spielen genutzt, sondern nur zum Rechnen. Das hört man dann auch am lauten Lüfter der Karte, der jeden PC-Lüfter in den Schatten stellen kann.
Während in Villariba noch die CPU glüht und erst 20 Prozent der Ware entdreckt hat, glänzt in Villabaj bereits alles.
Bitte verzeihen Sie den saloppen Vergleich mit diesen beiden fiktiven Dörfern, die aus der Werbung bekannt sein dürften und über die somit mehr bekannt ist als über aktuelle KI-Algorithmen.
Die Grafikkarte macht schon einen ganz erheblichen Unterschied bei Algorithmen, die für anspruchsvollere Aufgaben schon gerne mal 10 Tage am Stück antrainiert werden müssen, oder die für die Erzeugung eines Bildes 10 Sekunden auf einer GPU brauchen, auf eine – gähn- CPU aber 8 Minuten. Sicher haben Sie schon mal von DALL-E oder Midjourney gehört und wissen, dass Sie nicht 10 Minuten auf ein Bild warten müssen.
Funktionsweise einer aktuellen KI
Systeme der Künstlichen Intelligenz wie ChatGPT basieren auf künstlichen neuronalen Netz. Ein neuronales Netz ist auch im menschlichen Kopf bzw. Gehirn zu finden. Es funktioniert ungefähr so:

Dargestellt ist die Art, wie Menschen Informationen verarbeiten und wie Intelligenz entsteht. Ziemlich genau so viel wie im Bild zu sehen, verstehen wir davon, warum es überhaupt Intelligenz gibt. Ich behaupte, wir wissen nichts darüber, sondern wundern uns nur, warum Neuronen mit ihren Verdrahtungen in der Lage sind, so etwas wie Intelligenz entstehen zu lassen. Spoiler: Es hat nichts mit Gott zu tun, wie ich gleich zeige.
Im obigen Bild zu sehen sind links eine Reihe von Umwelteinflüssen, also Signalen. Das können Geräusche, Töne, Standbilder, Bewegtbilder, Gerüche, Luftbewegungen usw. sein. Fledermäuse kennen ja auch Ultraschall sehr gut. In der Mitte kommt unser Gehirn, das all diese Signale aufnimmt und verarbeitet. Rechts zu sehen ist das neuronale Netz, in dem die Signale verarbeitet und gespeichert werden.
Ein Neuron ist vergleichbar mit einem einfachen Prozessorkern. Zwischen den Neuronen existieren Verbindungen, und zwar insgesamt sehr viele. Es sind viele Milliarden. Ob ein Neuron feuert, also aktiv ist, wird durch das Aktionspotential bestimmt, das von anderen verbundenen Neuronen hin zu einem Zielneuron erzeugt werden.
Jetzt kommen wir zur technischen Realisierung heutiger KI-Algorithmen.

Links im Bild sehen Sie das gleiche wie oben beim Menschen.
In der Mitte sehen Sie das elektronische Gehirn, weiter oben war es das menschliche.
Rechts im Bild sehen Sie das neuronale Netz in digitaler Form, das beim Menschen biologisch und somit eher analog vorliegt.
So weit, so gleich. Aber es geht noch gleicher. Die Elektronengehirne verwandeln dank des Transformer-Ansatzes (bekannt seit dem Jahr 2017) alle Signale in Zahlenreihen, Vektoren genannt. Genau gleich tut es das menschliche Gehirn. Jedenfalls ist es qualitativ das Gleiche. Dass es in der allgemeinen Implementierung von Biologie und Elektronik feine Unterschiede gibt, ist nahezu egal und sorgt nur für etwaige Performanzsteigerung der Biologie gegenüber der Elektronik. Sicher kennen Sie das Mooresche Gesetz: Alle 12 bis 24 Monate verdoppelt sich die Rechenleistung eines Prozessors, oft bei gleichzeitig sinkendem Preis. Somit ist der Performanzsieger die Maschine, und zwar ab jetzt (ca. Jahr 2023).
Diese Vektoren, also Zahlenreihen, die Bilder, Texte oder Videos oder sonstiges darstellen, können jetzt miteinander verglichen werden. Jetzt können also Texte mit Texten, Bilder mit Bildern, Videos mit Videos, Texten mit Bildern, Bilder mit Videos, Texten und Audiosignale mit Bildern oder Videos usw. verglichen werden. Jetzt wissen Sie, wie ungefähr Bildgeneratoren wie Dall-E oder Midjourney funktionieren. Jetzt wissen Sie, dass damit schnellstens und einfachstens bisher hochexklusive Anwendungen wie SoundHound, die Musikstücke nach wenigen Sekunden identifizieren können, nachprogrammiert werden können.
Dass es schnellstens und einfachstens geht, tolle Anwendungen zu programmieren, habe ich selbst bewiesen:
- Audiotranskription meines Podcasts: Audio zu Text, in ungeahnt guter Qualität. Für 30 Minuten Sprache kommt automatisch ein KI-generiertes Transkript heraus, bei dem ich vielleicht noch fünf Worte manuell korrigieren muss. Satzteile und unbekannte Worte wie „alles tutti“, „Hömmele“ (ja, es heißt so!) oder „Megafail von Microsoft, die ein Twitter-AI-Tool hatten“ werden mühelos erkannt.
- Videoerzeugung aus einem Bild- und Audio-Input: Mein zweidimensionales Foto in ausgesprochen schlechter Qualität plus eine Stimme eines amerikanischen Präsidenten als einzige Eingabe ergibt meinen dreidimensional animierten Kopf und meinen sich synchron zur Stimme bewegenden Mund als Videoanimation.
- Bildgenerator: Bekannt aus anderen Anwendungen. Es macht aber einen Unterschied, weiß der Techniker, ob man in einer Cloud von Microsoft, Dall-E oder sonstwo etwas berechnen lässt oder auf einem lokalen System. Die Unterschiede sind nämlich: Lokal bezahle ich nichts. In der Cloud kann ich bei falscher Programmierung in einem Monat aus Versehen 100.000 Euro vernichten (Beispiel: ungewollter unendlicher rekursiver Aufruf). Lokal habe ich die volle Kontrolle über alle Daten. Bei Microsoft und Google hilft auch beten nichts, sondern höchstens ein Betäubungsmittel oder purer Alkohol, um all die Sorgen mit den Datenkraken für kurze Zeit zu vergessen oder den Schädel gar ganz von Verstand zu befreien.
- Objekterkennung: Welche Objekte sind auf einem Bild zu erkennen? Was sind die Umrisse jedes einzelnen Objekts? Welches Objekt heißt wie? Wie wäre es mit „Markiere auf dem Bild alle Teetassen“ oder „Suche mir alle Bilder, auf denen zwei oder mehr Menschen in einem Büro diskutieren und auf Stühlen sitzen“ oder „Ersetze das Gesicht auf dem Bild durch das von Norman Reedus“ mein Doppelgänger, sagen viele…).
- Semantische Suche: Statt über Suchbegriffe oder kryptische SQL-Anweisungen sucht man jetzt über natürlichsprachige Sätze oder vergleicht ganze Dokumente miteinander.
Ich habe mal ein paar tausend Bilder auf meinem Computer berechnen lassen. Hier ist das Ergebnis in Form eines Mosaiks (jedes Mosaiksteinchen ist in Wirklichkeit ein Bild mit einer Auflösung von 512 x 512 Bildpunkten):

Die Einzelbilder des Mosaiks entstanden aus einer KI-Berechnung. Gemischt wurden die Bilder zweier mir bekannter Künstler. Die Variationsvielfalt ist hier noch nicht optimal, weil es erste Versuche waren. Es geht noch viel besser, wie ich einen Tag später feststellte. Was auf dem KI-Markt eine halbe Ewigkeit ist, ist für manche Datenschutzbehörde eine Zeiteinheit, die sie nicht kennt (Was ist ein Tag? Manche Behörde kennt nur die Zeitbegriffe „Jahr“, „Jahrzehnt“ und „nie“)?
Lokale Systeme als Lösung
Wie eben dargestellt, können viele hochanspruchsvolle Berechnungen auf eigenen Computern ausgeführt werden. Bitte bitte, nicht wieder zu Microsoft, AWS oder Google rennen, nur weil wieder jemand Bullshit Bingo spielen will und mit Anglizismen und Markennamen um sich schmeißt, um Unwissen zu vertuschen.
Wer jetzt noch für jedes Problemchen einen Cloud-Dienst bucht, ist ein armes Würstchen und hat noch weniger Ahnung von KI als von Datenschutz und Internet-Anwendungen. Das wäre nicht schlimm, an muss nicht über alles Bescheid wissen. Die falschen Berater sind aber schlimm.
Eine KI ist für exakte Aussagen nicht geeignet. Sie ist damit genauso zuverlässig wie ein überdurchschnittlich intelligenter Mensch.
Einige Probleme sind allerdings so komplex, dass sie nicht auf üblicher Hardware ablaufen können. Beispielsweise ChatGPT Version 4. Dieses System gibt es gar nicht erst als Open-Source, sodass niemand in Versuchung kommen kann, alles richtig zu machen.
Einige sind dann aber doch vernünftig genug und kippen ihre Geschäftsgeheimnisse nicht in einen Chatbot von Microsoft oder Google. Wer das tut, mit dem möchte ich persönlich rein gar nichts zu tun haben wollen.
Als ein besonders plastisches Beispiel für Rechenaufwand sei BloombergGPT genannt. Das ist ein Large Language Model (LLM) des Finanzsenders Bloomberg. Es ist so mächtig, dass es 1,3 Millionen Rechenstunden benötigte, bis das Modell fertig berechnet war. Ein Modell ist ein elektronisches Gehirn.
Das Bloomberg-Gehirn war aber nur deshalb schon nach 148 Jahren Rechenzeit fertig, weil 512 höchstleistungsfähige Grafikkarten mit jeweils 40 GB Grafikkartenspeicher (NICHT: Computer-Hauptspeicher) beschäftigt wurden. Jede dieser 512 Grafikkarten kostet ca. 14000 Euro. Wer beim PC von 16 auf 32 GB RAM aufstocken will, zahlt das aus dem Geldbeutel. Wer eine Grafikkarte von 8 auf 16 GB Speicher erhöhen will, zahlt ein kleines Vermögen (leicht übertrieben).
Rechtliche Überlegungen
Ich beschränke mich im Wesentlichen auf einige Stichpunkte, die ich den Ausführungen von Rechtsanwalt Jonas Breyer entnommen habe. Es ist kein Zufall, dass sein Nachname Ihnen bekannt vorkommen könnte (Stichwort: „IP-Adressen sind personenbezogene Daten“).
Urheberrecht
Gut und schlecht zugleich für uns alle, wenn es um KI geht. Es besteht die Gefahr, dass Europa Regulierungsweltmeister bleibt. Dann dürfte in Europa in manchen Feldern (Bildverarbeitung?) kaum ein Unternehmen mit KI erfolgreich werden. Stattdessen kaufen wir dann bei den Amis ein, die machen, was sie wollen, aber nicht belangt werden (können).

Wichtigste Prämisse: Was ich als Mensch darf und nicht darf, darf eine KI ebenso viel oder wenig.
Ein Bild aus dem Kopf heraus nachzumalen ist einem Menschen genauso erlaubt wie einer KI. Wenn das Ergebnis zu viel Ähnlichkeit mit einem urheberrechtlich geschützten Werk hat, ist es nicht erlaubt. So geschützt sind an sich alle Werke, die eine Mindestschöpfungshöhe haben. Das sind nahezu alle Bilder oder Fotos, auf denen nicht nur ein Quadrat oder Kreis zu sehen ist.
Übrigens ist es laut § 44b UrhG erlaubt, Werke anderer kurzzeitig zu speichern, um diese nach Mustern zu analysieren. Genau das macht KI üblicherweise.
Der Fall LAION
Hier kommen wir zum Fall LAION e.V., einem deutschen Verein, der von einem deutschen Fotografen verklagt wurde. LAION hat über 5 Milliarden Bilder in einem Trainingsdatensatz für KI-Bildanwendungen zusammengestellt und öffentlich gemacht. Der Datensatz enthält nur die Links auf die öffentlich frei zugänglichen Originalbilder.
Der LAION 5B Datensatz ist weltweit populär und die Basis für jeden zweiten Bildgenerator, der was auf sich hält.
Meine eigene Beobachtung nach Erforschen zahlreicher Stable Diffusion Algorithmen.
LAION hatte diese Bilder einmal heruntergeladen und genutzt, um ein elektronisches Gehirn zu berechnen. Danach hat LAION nach eigenen Angaben die Bilder wieder gelöscht. Mit dem Gehirn können dann Bilder wie die weiter oben oder das folgende berechnet werden.

Ein Fotograf hat nun in dem LAIOn Datensatz einige seiner Bilder wiedergefunden. Wie gesagt, nur die Verlinkungen und nicht die Originale. Der Fotograf verlangte von LAION die Löschung seines Materials aus den Trainingsdaten. Was damit genau gemeint ist, konnte ich noch nicht herausfinden. Womöglich geht es dem Fotografen darum, dass die Erkenntnisse aus seinen Bildern aus dem Elektronengehirn gelöscht werden.
Hier die LAION Bilddatenbank als Schema und mit Originalangaben (Auszug):

Die Frage ist nun, ob LAION die Erkenntnisse aus kurz gespeicherten und analysierten Bildern nachträglich löschen muss oder nicht. LAION meint "nein" und hat dem Fotografen als Antwort auf seine Löschaufforderung eine Anwaltsrechnung mit Schadenersatzforderung in Höhe von ca. 850 Euro geschickt.
Datenschutzrecht
Personenbezogene Daten unterliegen dem Schutz der DSGVO. KI-Anwendungen bedingen immer eine automatisierte Verarbeitung. Daher unterliegen sie immer der DSGVO, wenn personenbezogene Daten im Spiel sind.
Personenbezogen können nicht nur Texte, sondern auch Bilder sein. Ich bin der Meinung, dass öffentliche Informationen einen nur geringen oder keinen wesentlichen Datenschutz genießen können. Falschaussagen, die von einer KI generiert werden, haben erst einmal nichts mit dem Datenschutz zu tun. Auch das Urheberrecht ist etwas anderes als der Datenschutz.
Somit sehe ich den Datenschutz als untergeordnetes Problem, wenn es um KI-Anwendungen geht. Er hat hier seine sehr gute Berechtigung und verhindert nicht, sondern schützt. Anders sehe ich es eher beim Urheber- oder beim Markenrecht.
Sonstige Rechtsvorschriften
Das Markenrecht schützt explizit (§ 3 MarkenG) und implizit geschützte Marken (§ 4 Nr. 2 MarkenG u. a.).
Es gibt neben Wort- und Bildmarken auch Geruchsmarken, Klänge, Formen und wohl einige mehr.
Patente, Gebrauchsmuster und einige Designs sind ebenso geschützt. Selbst eine Flaschenform kann geschützt sein.
Der Data Act liegt bisher nur im Kommissionsentwurf vor. Er verpflichtet größere Firmen dazu, ihre Daten herauszugeben, wenn jemand danach fragt. Das klingt kurios und ist es auch.
Ebenso gibt es einen Kommissionsentwurf einer KI-Verordnung. In Frage steht, ob es eine Beweislastumkehr geben soll, wenn jemand ein KI-generiertes Werk verwendet. Wurde dieses Werk rechtmäßig erzeugt? Um das zu beweisen, müsste man beispielsweise bei einem Bildgenerator den jeweiligen Zustand des KI-Systems als Backup speichern, um später den Nachweis überhaupt sicher führen zu können. Das verhindert KI und ermöglicht sie nicht.
Regulierung schützt große Unternehmen, die sich Rechtsbeistand und Personal für umfangreiche Prozesse leisten kann. Kleine Unternehmen werden dadurch unterdrückt.
Besser als Regulierung, die ich für faktisch nicht möglich halte, finde ich Abschreckung und Sanktionierung. Zwei Worte, die Datenschutzbehörden wie der hessischen (und einigen Gerichten von dort) gänzlich unbekannt sind. Wo parken weniger Autos falsch? Da, wo selbst auf dem Strich parken mit 800 Euro bestraft wird (aber nie im Leben ein Ticket erhält) oder dort, wo jeder fünfte aufgeschrieben wird, der falsch parkt?
Empfehlungen
Nutzen Sie lokale KI-Systeme. Die Welt kann ja so einfach sein. Keine Probleme mehr mit Google und Microsoft. Was war noch mal der Privacy Shield? Gibt es den noch? Nein, gibt es nicht mehr. USA sind raus.
Verwechseln Sie ChatBots nicht mit Suchmaschinen. Allerdings kann über eine semantische Suche, ganz ohne ChatGPT, jedes Dokument oder Bild besser gefunden werden als je zuvor. Ganz ohne OpenAI oder Microsoft.
Kontrollieren Sie die Übungsdaten: Nur eigene bzw. handverlesene Daten sind gefeit vor rechtlichen Problemen. Schwierig, weil KI auf Massendaten beruht. Zum Glück gibt es Auswege. Am besten sollten (üblicherweise) nur öffentlich zugängliche Daten verwendet werden, wenn es schon nicht die eigenen sind.
Nutzereingaben sollte nicht anlasslos gespeichert werden. Sie könnten personenbezogene Daten enthalten. Der Anlass sollte, sofern gespeichert wird, sehr sorgfältig ausgesucht und legitimiert werden. Immerhin wurde ChatGPT deswegen in Italien für kurze Zeit verboten.
Die Ausgaben, die eine KI erzeugt, sind je nach Form unterschiedlich zu handhaben. Textausgaben sind keine wissenschaftlichen Ausarbeitungen. Siehe den Fall des New Yorker Anwalts, der sich von ChatGPT 12 Urteile unterjubeln ließ, die es nie gab. Dumm, wenn man diese Ergebnisse dann vor Gericht einreicht und so tut, als wäre es die Wahrheit.
Den Vortrag hierzu hielt ich auf einem Datenschutzkongress bei der Deutschen Flugsicherung Ende Mai 2023.

Kernaussagen dieses Beitrags
Grafikkarten sind viel besser geeignet als normale Computer-Prozessoren für Künstliche Intelligenz, weil sie viele kleine Rechenkerne haben, die gleichzeitig arbeiten können.
KI-Systeme funktionieren ähnlich wie das menschliche Gehirn, indem sie Signale verarbeiten und speichern.
KI kann jetzt Bilder, Texte und Videos vergleichen und damit neue Anwendungen wie Spracherkennung oder Bildgenerierung ermöglichen.
Der Text argumentiert, dass viele KI-Aufgaben lokal auf eigenen Computern erledigt werden können, anstatt Cloud-Dienste zu nutzen, und warnt vor übermäßiger Abhängigkeit von großen Technologieunternehmen.
Ein deutscher Verein, der KI-Bildgeneratoren trainiert, wurde von einem Fotografen verklagt, weil er dessen Bilder für das Training verwendet hat. Es ist umstritten, ob die Erkenntnisse aus kurzzeitig analysierten Bildern nachträglich gelöscht werden müssen.
KI-Anwendungen in der Cloud sollten mit Vorsicht behandelt werden, da sie Datenschutzprobleme aufwerfen können.
KI-generierte Texte sind per se nicht zuverlässig und sollten nicht als wissenschaftliche Fakten oder rechtliche Dokumente verwendet werden.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 