Viele schreiben aus verschiedenen Gründen, dass Künstliche Intelligenz ja nur Statistik sei und dass durch Wahrscheinlichkeiten bestimmt würde, welches Wort einer Textantwort als nächstes auszugeben sei. Das ist Bullshit. Doch was ist Künstliche Intelligenz in Bezug auf Statistik eigentlich?
Eine häufige Aussage zu aktuellen KI-Systemen ist, dass diese ihre Ergebnisse durch statistische Berechnungen gewinnen würden. Damit wollen manche, so mein Eindruck, die Fähigkeiten von KI entmystifizieren. Meiner Meinung und bisherigen Kenntnissen nach ist dies unangebracht.
Zuletzt gestern wurde meine Meinung bestärkt, und zwar von Aussagen des deutschen KI-Pioniers Prof. Jürgen Schmidhuber. Er gilt als Vater zahlreicher mathematischer Modelle, die für den jetzigen Siegeszug der KI verantwortlich sind. Zu nennen sind insbesondere der Transformer-Ansatz und LSTM (langes Kurzzeit-Gedächtnis). Ohne diese Ansätze, vor allem ohne Transformer, gäbe es ChatGPT nicht (und wenn, dann als ChatGP, denn das „T“ steht für „Transformer“).
Der eben genannten deutsche KI-Pionier sagte bei Markus Lanz das, was ich vor einigen Wochen auch schon geschrieben habe und was ich gerne jederzeit wiederhole. Er sagte nämlich, dass die Funktionsweise KI sehr ähnlich der ist, wie ein menschliches Gehirn funktioniert.
Es gibt keine wesentlichen Unterschiede zwischen elektronischem und menschlichem Gehirn.
Bezieht sich auf die Funktionsweise.
Ebenso wie Prof. Schmidhuber, bin ich der Meinung, dass KI-Roboter demnächst (in 10 bis 20 Jahren würde ich schätzen) bessere allgemeine Fähigkeiten als der Mensch haben werden. Für diese Aussage muss man kein Hellseher sein. Sie ergibt sich bereits aus den aktuellen Möglichkeiten und der einfachen Annahme, dass Rechenleistung immer billiger werden wird, genau wie die letzten 50 Jahre lang.
Was hat es mit der Statistik auf sich?
Sicher ist es richtig, dass KI-Algorithmen auf statistischen Berechnungen beruhen. Diese Aussage ist aber sehr undifferenziert und nicht aussagekräftig. Hierzu drei Beispiele:
Ein Automobil ist offensichtlich ein Haufen Materie. Diese Aussage ist ebenso richtig, wie undifferenziert.
Cookies sind keine Textdateien. Das versuche ich seit langem klarzumachen. Dennoch kommen manche und sagen: Cookies werden aber doch in Dateien gespeichert. Dann sage ich: Ja, aber das sind (heutzutage bzw. über alle Browser betrachtet generell) keine Textdateien. Dann kommt jemand und sagt: Ja, aber man kann diese (Binär-)Dateien doch mit einem Texteditor öffnen. Richtig, man kann jede beliebige Datei mit einem Texteditor öffnen, auch wenn dann die Binärdaten in unvorhergesehener und nicht üblicherweise falsch angezeigt werden. Alles als Datei zu bezeichnen, bedeutet einen Informationsgehalt von genau null (= Entropie = Maß für den mittleren Informationsgehalt einer Nachricht).
Die Quantentheorie ist meiner Kenntnis nach die am besten zutreffende und am besten bewiesene Theorie der Menschheitsgeschichte. Sie beschäftigt sich mit den kleinsten Teilchen. Jegliche Materie auf der Erde (und wahrscheinlich auch sonst wo im Universum) ist aus Teilchen zusammengesetzt, die der Quantentheorie gehorchen. Dummerweise basiert die Quantentheorie auf Zufall. Die Quantentheorie basiert also auf statistischen Prozessen. Insofern basiert unsere gesamte Existenz auf Zufall. Unser tägliches Leben ist somit von statistischen Prozessen bestimmt. Dennoch habe ich noch niemanden sagen hören, dass unser Alltag statistischen Prozessen gehorcht.
Warum also sagen manche, dass die von einer KI generierten Ergebnisse auf statistischen Algorithmen beruhen würden? Weil Sie KI nicht verstehen und herunterspielen wollen, ist meine These. Wer etwas nicht begreifen kann oder will, tut so, als wäre dieses etwas nicht relevant oder nicht so wichtig oder ähnliches.
Warum basiert KI nicht wirklich auf Statistik?
Wie oben dargestellt, spielt Statistik überall eine Rolle. Man muss dies nicht gesondert erwähnen, wenn Statistik nicht der vorherrschende Faktor ist. In der KI sind andere Konzepte vorherrschend. Zu nennen sind:
- Neuronale Netze (KNN)–> wie beim Menschen
- Transformer und Einbettungen -> Wie beim Menschen
- Strukturen erkennen -> Wie beim Menschen
Zum letzten Punkt, dem Erkennen von Strukturen, ein Beispiel. Die deutsche Sprache kennt viele Redewendungen, die sich eingebürgert haben. Spricht ein Ausländer deutsch, kommt es oft vor, dass er eine Redewendung nicht so verwendet, wie wir das für richtig halten. Gleiches kann man für die deutsche Grammatik allgemein sagen. Offensichtlich gibt es also sprachliche Regeln. Diese haben damit zu tun, welches Wort in unserer Erwartungshaltung auf das vorige Wort bzw. auf mehrere vorige Worte folgen sollte. Das hat mit Statistik zu tun.
Der Kern ist allerdings, dass wir als Muttersprachler den Kontext der deutschen Sprache und eines Textes erfassen. Genau dies tun moderne KI-Algorithmen auch.
Auswirkungen auf Datensicherheit
Datensicherheit bezieht sich hier auf personenbezogene Daten, also den Datenschutz, auf Geschäftsgeheimnisse und auf Urheberrechtsaspekte.
Genau wie beim Menschen werden Informationen nicht in exakter Weise in einem künstlichen Gehirn, welches KI-Modell genannt wird, gespeichert. Vielmehr erfolgt die Speicherung in Form von Gewichten, die das neuronale Netz austarieren. Dennoch sind KI-Systeme wie ChatGPT bekannterweise in der Lage, Fakten korrekt wiederzugeben. Wie Halluzinationen entstehen, beschreibe ich genauer in einem weiteren Beitrag.
Deswegen gibt es bei großen Konzernen, die selbst führend in der KI sind, die Mahnung an Mitarbeiter, keine sensiblen Daten in die KI hereinzustecken. Denn ein Dritter, der unbefugt ist, bestimmte Informationen zu erhalten, könnte diese Informationen durch geschicktes Befragen des ChatBots erlangen.
Es ist nur eine Frage der Zeit (Hardware-Entwicklung), bis eine Künstliche Intelligenz den Menschen noch mehr übertrifft, als das jetzt schon der Fall ist (siehe ausgereifte Chat Bots, die oft wesentlich bessere Antworten geben als durchschnittlich intelligente Menschen).
Meine These. Gerne wette ich darauf mit Ihnen.
Sensible Informationen sind sowohl beim initialen Training („pre-training“ genannt) relevant, als auch beim weiteren Anlernen („fine-tuning“ genannt). Nutzereingaben hingegen können leicht kontrolliert werden, sofern sie nicht gespeichert und auch nicht zur Verbesserung der KI-Modelle verwendet werden.
Daher empfehle ich Unternehmen dringend, sich nur eigene KI-Systeme zuzulegen, sofern Unternehmensdaten dort hineinfließen. Diese lokalen Systeme sind machbar und bezahlbar. Kommen Sie auf mich zu, wenn Sie bezüglich der Machbarkeit eine Aussage benötigen. Was geht, sind insbesondere:
- Suche in Dokumenten
- Beantworten von Fragen aus eigenen Dokumenten
- Audiotranskription
- Mustererkennung (Forscher haben kürzlich mit KI-Unterstützung neue Hieroglyphen entdeckt)
- Bilderzeugung
- usw.
Zur Bilderzeugung ein Wort: Es ist ein riesengroßer Unterschied, ob Sie
a) in DALL-E oder Midjourney manuell eine Anweisung in einen Prompt tippen müssen, nutzungsabhängig bezahlen müssen (oder auf Ihr Freikontingent achten müssen), bei unzufriedenstellenden Ergebnissen zig Versuche unternehmen müssen, und zudem nicht wissen, was mit Ihren Eingabedaten und mit dem erhaltenen Bild passiert,
oder
b) einen eigenen Server haben, auf dem eine eigene KI-Anwendung läuft, mit der zu einer Anweisung 20, 50 oder auch 1000 oder 5000 Bilder „kostenfrei“ erzeugt werden können. Zudem können die generierten Bilder mit einer KI auf Relevanz geprüft werden. Dazu können beispielsweise Ihre früheren Entscheidungen, welche Bilder Sie für Ihre Marketing-Kanäle gut fanden, berücksichtigt werden. So wird aus 1000 generierten KI-Bilder eine Liste mit den 20 besten. Aus diesen suchen Sie sich so viele heraus, wie Sie benötigen.
Automatik versus manuell, Fixkosten versus unvorhersehbare Kosten, Datenqualität versus Zufall, Individuelle Gestaltungsmöglichkeiten versus Pauschallösung, Datensicherheit versus Glücksspiel. Es ist Ihre Entscheidung.
Wichtig zu wissen: Wenn Sie lokale KI-Lösungen für Ihr Unternehmen haben möchten, dann müssen Sie wissen, wofür. Es gibt nicht eine KI-Lösung für alles. ChatGPT bekommen Sie aktuell nicht in einer datenfreundlichen Ausprägung! Bitte sehen Sie die oben genannten Anwendungsfälle für Möglichkeiten, die mit KI-Systemen lösbar sind, die auf einem lokalen Server laufen.
Fazit
Die Leistung, die von KI-Algorithmen auf Basis des Transformer-Ansatzes ausgeht, hat mit Statistik genau so viel oder wenig zu tun wie die Arbeitsweise des menschlichen Gehirns.
Die Hauptmerkmale moderner KI liegen vielmehr in der Architektur künstlicher neuronaler Netze, dem Transformer-Ansatz und der Vereinheitlichung jeglicher Art von Daten.
Genau wie der Mensch ist eine KI unzuverlässig und produziert andauernd falsche Ergebnisse (ich wiederhole: genau wie der Mensch). Allerdings können KI-Systeme auch Erstaunliches leisten. Man muss eben wissen, dass generierte Antworten in Textform kein belastbares Ergebnis darstellen. Die Suche nach Dokumenten hingegen, oder auch die Bilderzeugung, sind mächtige Werkzeuge, die viele Chancen eröffnen.
Weitere Beiträge zur KI:
Offline-KI jetzt ausprobieren.
Optimierbar und mit voller Datenkontrolle. Günstig auch im Dauerbetrieb.
Alles aus Deutschland: Für Ihr Unternehmen, ohne ChatGPT, ohne Azure.
Kernaussagen dieses Beitrags
Künstliche Intelligenz funktioniert ähnlich wie ein menschliches Gehirn und wird in Zukunft wahrscheinlich sogar bessere Fähigkeiten haben.
KI basiert nicht nur auf Statistik, sondern auf komplexen neuronalen Netzen, die wie das menschliche Gehirn Strukturen erkennen und Zusammenhänge verstehen.
Unternehmen sollten eigene KI-Systeme nutzen, wenn sensible Daten verarbeitet werden, da diese lokal sicherer sind und mehr Kontrolle bieten.
KI kann erstaunliche Dinge, wie Bilder erzeugen oder Dokumente suchen, aber Textgenerierung vor allem durch Universalsysteme ist oft ungenau und nicht zuverlässig.
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 
Vielleicht dazu lesenswert: https://direct.mit.edu/daed/article/151/2/183/110604/Do-Large-Language-Models-Understand-Us (geschrieben Ende 2021/Anfang 2022 über LaMDA von Google), wo die "Statistik"-Sicht ebenfalls als nahezu irrelevant dargestellt wird. Der Artikel ist weitgehend "technik-frei" und eher philosophisch.