Was ist der Hauptgrund für die vielen Fehlannahmen über KI?

Die vielen Fehlannahmen über KI entstehen hauptsächlich aufgrund einer oft einseitigen Berichterstattung, die sich stark auf ChatGPT und Microsoft-Produkte konzentriert. Dies führt zu einer verzerrten Wahrnehmung der Möglichkeiten und Fähigkeiten von KI.

Warum ist ChatGPT nicht immer eine gute Lösung für komplexe Aufgaben?

ChatGPT ist für Alltagsaufgaben und häufige Aufgaben geeignet, aber für professionell bearbeitete Aufgaben, wie z.B. das Zusammenfassen von Texten ohne Halluzinationen, oder das Finden von Wissen, oft ungeeignet. Es kann nicht umfassend Informationen abrufen oder genaue Ergebnisse liefern.

Warum sind die Kosten für das Training großer Sprachmodelle oft als Null dargestellt?

Das Training großer Sprachmodelle, wie ChatGPT, benötigt dutzende oder sogar hunderte von Servern gleichzeitig, was hohe Kosten verursacht. Die Inferenz, also das Befragen des Modells, ist dagegen oft kostenlos, da die Serverkosten von den Anbietern getragen werden.

Welche rechtlichen Probleme entstehen durch den Einsatz von KI-Systemen zur Inhaltsaufnahme (Crawling) von Webseiten?

Der automatisierte Zugriff auf Inhalte von Webseiten, insbesondere durch Crawler, wirft Urheberrechtsfragen auf. Da die meisten Inhalte geschützt sind und der automatische Zugriff ohne Zustimmung des Rechteinhabers illegal ist, ist dies ein erhebliches rechtliches Risiko.

Was ist das Hauptargument des Autors gegen die Aussage, dass KI-Systeme ein Algorithmus sind?

Der Autor argumentiert, dass KI-Systeme, insbesondere Sprachmodelle, nicht als einfache Algorithmen betrachtet werden können. Sie zeichnen sich durch komplexe Lern- und Anpassungsprozesse aus, die über die reine Ausführung einer vordefinierten Regel hinausgehen.

Was ist ein Token und warum ist es relevant für den Datenschutz?

Ein Token ist eine Zahl, die verwendet wird, um Text in Sprachmodellen zu repräsentieren. Da die Umwandlung von Text in Token alle Informationen erhält, können auch personenbezogene Daten in den tokenisierten Text übertragen werden, was Datenschutzbedenken aufwirft.

Warum ist das Hamburger Thesenpapier aus Sicht des Autors problematisch?

Das Hamburger Thesenpapier wird vom Autor als fundamental falsch kritisiert, da es die Annahme unterstützt, dass KI-Systeme keine personenbezogenen Daten speichern. Dies ignoriert die Tatsache, dass die tokenisierte Darstellung von Text tatsächlich personenbezogene Informationen kodieren kann.

Wie werden personenbezogene Daten in Sprachmodellen gespeichert?

Personenbezogene Daten werden in Sprachmodellen gespeichert, indem sie während des Pre-Trainings mit riesigen Datenmengen verarbeitet werden. Diese Datenmengen enthalten oft auch Informationen über Personen, die nicht öffentlich bekannt sind.

Sichere KI, digitaler Datenschutz & Website-Compliance

Kategorien: Datenschutz, Bullshit Basics und Künstliche Intelligenz

Jeder findet KI irgendwie toll. Deswegen äußert sich auch jeder zu KI. Weil KI ein technisch hochkomplexes Feld ist, entstehen zahlreiche Halbwahrheiten oder Falschaussagen. Befeuert wird das ganze durch Marketing-Versprechen von Microsoft und anderen. Dieser Beitrag stellt klar, was richtig ist und was eher dem Bereich alternativer Fakten zuzurechnen ist.

Häufige Fehlannahmen zu KI

Aufgrund einer oft einseitigen Berichterstattung, die sich immer wieder um ChatGPT oder Microsoft KI-Produkte dreht, entstehen anscheinend zahlreiche Fehlannahmen. Einige davon sind:

Sprachmodelle würden auf Statistik basieren und seien somit nicht intelligent.
Ein KI-System sei ein Algorithmus.
KI sei ein Tool.
Ein KI-System könne exakt arbeiten.
ChatGPT sei nicht intelligent.
ChatGPT sei die beste Lösung.
KI sei gleichzusetzen mit ChatGPT (OpenAI), Claude (Anthropic), Mixtral (Mistral) oder Command R+ (Cohere). Etwas anderes gäbe es nicht.
Bei Microsoft seien die Daten sicher.
KI sei rechtskonform betreibbar.
Tokens seien keine echten Daten.
KI-Modelle speicherten keine personenbezogenen Daten.

Aus diesen Fehlannahmen entstehen oft Falschaussagen. Einige davon werden nachfolgend klargestellt. Stellvertretend für andere Cloud-Dienste wird folgend nur von ChatGPT gesprochen.

Falschaussagen zu KI

Die folgenden Aussagen waren so oder so ähnlich in sozialen Medien zu lesen. Die Aussagen waren an den Fundstellen jeweils allgemein formuliert, oder spezifisch und dennoch falsch.

ChatGPT sei nicht intelligent

Nach der Definition von KI auf Dr. DSGVO ist ChatGPT intelligent. Diese Definition von KI lautet:

Auch nach Alan Turing, brillanter Mathematiker im Zweiten Weltkrieg und Enschlüsseler der Enigma-Kodiermaschine, ist ChatGPT intelligent: ChatGPT besteht den Turing-Test. Der Test prüft, ob Antworten einer Maschine von denen eines Menschen ununterscheidbar sind. Im Gegenteil: ChatGPT liefert oft (fast immer könnte man sagen) deutlich bessere Antworten als der durchschnittlich intelligente Mensch.

Die neue Definition der KI-Verordnung der KI definiert ChatGPT (hoffentlich) auch als intelligent. Siehe Artikel 3 AI Act vom 12.07.2024.

Was ist Intelligenz? Eben wurde die Definition von künstlicher Intelligenz genannt. Streichen Sie einfach das Attribut „künstlich“ zweimal aus der Definition. Schon steht die Definition von Intelligenz. Der Mensch hat keinen Anspruch auf das Intelligenzmonopol, auch wenn viele es gerne so hätten.

Intelligenz basiere auf menschlichen Maßstäben

Viele meinen, Intelligenz sei etwas, das der Mensch festlegt. Die KI Verordnung der EU hatte in einer mittlerweile revidierten Definition dessen, was Künstliche Intelligenz sei, geschrieben, dass Künstliche Intelligenz Ziele erreichen soll, „die vom Menschen festgelegt werden …“.

Es gibt keinen einzigen Grund für diese Fehlannahme. Der Mensch ist irrelevant bezüglich der Feststellung dessen, was Intelligenz ist. Man konnte ihn bisher höchstens als Maßstab nehmen. Zukünftig gilt dies wohl nicht mehr.

Übrigens wird auch einigen Tierarten intelligentes Verhalten zugeschrieben. Offenbar sind Tiere keine Menschen.

Intelligenz könne nicht auf einfachen Grundprinzipien basieren

Wo ist das Argument?

Diese Haltung kommt oft aus der Verzweiflung heraus, keine Rechtfertigung für die Aussage zu finden, Intelligenz sei nur beim Menschen (oder einigen Tieren) zu finden. In Wirklichkeit basiert Intelligenz auf einemk einfachen Grundprinzip: Der Aufmerkamkeit (Fokus) auf bestimmte Impulse, die in einem gegebenen Kontext auftreten. Dieses Prinzip wurde im Jahr 2017 mit der Forschungsarbeit Attention Is All You Need populär.

Weiterhin ist es so, dass das menschliche Gehirn sämtliche Signale von Auge, Ohr, Nase oder auch Tastsensoren in elektrische Spannung umwandelt, die im neuronalen Netz, das wir Gehirn nennen, landen. Spannung ist etwas, das mit mit einer Zahl ausdrücken kann. Genau mit solchen Zahlen arbeitet KI. Genau wie das menschliche Gehirn.

ChatGPT sei die beste Lösung

Es kommt darauf an, wofür. Für Allerweltsaufgaben ist ChatGPT oft eine tolle Antwortmaschine. Das gilt vor allem für Weltwissen oder häufige Aufgaben, die sich auch in den Trainingsdaten von ChatGPT wiederfinden.

Für alle konkreten Aufgaben, die halbwegs professionell bearbeitet werden sollen, scheint ChatGPT ungeeignet zu sein. Ein Beispiel: Zusammenfassen eines Textes ohne Haluzinationen. Anderes Beispiel: Finden von Wissen.

ChatGPT kann und will ganz sicher nicht einen größeren Teil des Internets oder einer Webseite für Sie abgrasen. Immerhin zahlen Sie entweder „nur“ mit Ihren Daten und den Daten anderer. Oder Sie zahlen $20 pro Monat oderr einen mickrigen Betrag pro Aufruf der API.

ChatGPT kann also nur auf Inhalte zurückgreifen, die entweder schon bekannt sind oder die unbekannt sind und einen geringen Umfang haben. Mit „geringer Umfang“ ist die Anzahl der Dokumente bzw. Webseiten gemeint.

Für Aufgaben wie die Digitalisierung von Dokumenten scheidet ChatGPT als gute Lösung aus, weil hier viele Spezialitäten zu beachten sind.

ChatGPT sei schlecht

Es kommt darauf an, wofür. ChatGPT ist keine Suchmaschine. Wer das System entgegen seiner Bestimmung nutzt, muss sich über mäßige Antworten nicht wundern. Ein KI-System ist auch nicht dafür gemacht, Buchstaben eines Wortes zu zählen.

Eine KI ist gut darin, komplexe Aufgaben kreativ zu lösen. Dieselbe KI ist schlecht darin, exakte Arbeiten auszuführen. Genau wie der Mensch!

KI-Training sei teuer

Richtig ist: Das Training von großen Sprachmodellen wie ChatGPT ist sehr teuer und zeitaufwändig.

Richtig ist aber auch: Das Training eigener KI-Sprachmodelle ist sehr günstig möglich. Der Grund ist, dass diese eigenen Modelle für bestimmte Anwendungsfälle spezialisiert werden. Das Training solcher Modelle ist in vielen Fällen auf einem Laptop oder einem eigenen KI-Server in ein paar Stunden möglich.

Weil eigene KI-Rechner meist sowieso an sind und laufen, sind die Kosten für das KI-Training bei null.

KI-Training ist also in den meisten Fällen kostenfrei möglich.

Inferenz sei teuer

Inferenz ist das Befragen eines KI-Modells, also etwa das Chatten mit einem Sprachmodell wie ChatGPT.

Richtig ist: Große Sprachmodelle wie ChatGPT benötigen dutzende oder gar hunderte von Servern gleichzeitig, um eine Antwort auf Ihre Frage zu generieren. Das ist teuer.

Richtig ist aber auch: Wird ein selbst betriebenes KI-Sprachmodell befragt, kostet das gar nichts.

Somit liegen die Kosten für Inferenz in den meisten Fällen bei null. Was OpenAI für seine Server bezahlt, kann uns genauso egal sein wie es OpenAI egal ist, was wir für unsere Rechner bezahlen.

Microsoft Azure und ChatGPT seien sicher

Viele verkaufen ihre „Lösung“ als innovativ. Eine Bank hat sogar von der Einführung einer eigenen (privaten) KI gesprochen, meint damit aber Microsoft Azure. Azure ist das Gegenteil von sicher. Microsoft selbst ist Gegenstand zahlreicher Hacker-Angriffe. Weiterhin muss man feststellen, dass Microsoft dem Thema Sicherheit nicht die höchste Priorität widmet.

Hinzu kommt dermassive Datenhunger von Microsoft. Das neue Outlook will Mails von Kunden für eigene Zeecke abrufen; Windows sendet dauernd Nutzerdaten an Microsoft usw.

Microsoft Copilot sei gut

Erste Tests zeigen, dass das Gegenteil richtig ist. Copilot sollte einen Text zusammenfassen. Die Anweisung (Prompt) dafür war supersimpel und unmissverständlich. Der Text wurde direkt vorgegeben. Die Textlänge war recht kurz, weil das Eingabefeld in der Web-Oberfläche von Copilot nicht mehr zuließ.

Der Testbericht mit Screenshots offenbart, dass Copilot anscheinend für einige Aufgaben völlig unbrauchbar ist. Selbst bei wohlwollender Betrachtung gelingt es nicht, den Copilot-Ergebnissen etwas Positives abzugewinnen. Die Zusammenfassung eines Auszugs eines Dr. DSGVO Blog-Artikels war dermaßen falsch, dass ein Mensch sich dafür schämen würde. Copilot erfand zahlreiche Aussagen einfach und erfüllte die gestellte Aufgabe komplett gar nicht.

Stattdessen tut Microsoft an der jeder Stelle so, als sei Copilot eine tolle Lösung und die Antworten seien so direkt verwendet. Nirgends konnte gelesen werden, dass eine Antwort mal falsch sein könnte oder ähnliches.

Sprachmodelle basierten auf Statistik

Ja, richtig. Genau so funktioniert Grammatik. Genau so funktioniert Intelligenz. Siehe das menschliche Gehirn. Sprachmodelle sind eben nicht derart trainiert wie der Mensch, der weitere Schritte vollzieht, um eine Antwort zu geben.

Unsere gesamte Existenz basiert auf Wahrscheinlichkeiten: Vergleiche den radioaktiven Zerfall oder, noch allgemeiner, die Quantenphysik. Alles basiert auf Zufall. Alles. Bitte fragen Sie bei Bedarf jemanden, der sich mit Quantenphysik etwas auskennt.

Es spielt keine Rolle, wieso ein System intelligent ist. Entscheidend sind alleine die Ergebnisse. Wer noch daran glaubt, dass das menschliche Gehirn nicht "hackbar" sei, für den ich vielleicht ein Bericht über ein künstliches Rattengehirn auch nicht interessant. Es gelang anscheinend, Bewegungen und die zugehörigen Gehirnaktivitäten über eine Simulation nachzuvollziehen.

KI sei rechtskonform nutzbar

Theoretisch mag dies so sein. In der Praxis stellen sich einige Fragen:

Woher kommen die Milliarden oder gar Billionen von Datensätzen, die in ein KI-System für dessen Training eingeflossen sind?
Bei Cloud-Diensten wie ChatGPT oder Azure stellt sich die Frage, ob die rechtlichen Bedingungen ausreichen.
Kann der § 44b UrhG (deutsches Urheberrechtsgesetz) überhaupt eingehalten werden?
Wie können Daten aus einem bestehenden KI-Modell gelöscht werden?

Zur Frage 3: Der deutsche Gesetzgeber fordert, dass Crawler Inhalte von Webseiten nur einlesen dürfen, wenn der Webseitenbetreiber dem nicht widersprochen hat. Der Widerspruch solle, so Deutschland, im Impressum oder den AGB verankert sei. Das ist aus technischer Sicht vollkommen praxisfern und nicht realisierbar. Crawler verstehen Widerspruchs-Formulierungen in natürlicher Sprache nicht. Es gibt keine KI-Crawler. Es gibt nur dumme Crawler, die Inhalte für Systeme liefern, die intelligent werden sollen oder es schon sind. Die robots.txt-Datei wäre eine gute Lösung gewesen. Leider hat Deutschland diese Lösung verpasst. Weiterhin müsse der Betreiber des Crawlers später nachweisen können, dass KEIN Widerspruch vorhanden war. Dies ist in der Praxis kaum bis gar nicht leistbar. Somit wäre das Crawling deutscher Webseite immer ein großes rechtliches Risiko und oft wohl auch verboten.

Zur Frage 1: Die Daten kommen aus dem Internet

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.

Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks

Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.

↓

Newsletter abonnieren

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de