Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

KI: Welches Sprachmodell ist das beste?

Deutsche Version (Original)
0
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Ein neues Sprachmodell (LLM) sorgte kürzlich für Aufsehen. Es erreichte in einem populären Benchmark den höchsten Wert und war demnach sogar deutlich besser als ChatGPT-4 Omni, das aktuelle Premium-Modell von OpenAI. Doch welches Sprachmodell ist wirklich das beste?

Einleitung

Mit dem Benchmark AlpacaEval werden neue Sprachmodelle getestet. Die sogenannte Win-Rate gibt an, wie gut ein LLM im Test abschneidet. Hier die ersten Plätze der Modelle, die als bekannt angesehen werden können:

Auf dem ersten Platz steht GPT-4 Omni von OpenAI mit einer Win Rate von 57,5 %. Diese Rate wird längenbereinigt („LC Win Rate“). Das bedeutet, die längengesteuerte (LC) Gewinnraten verringern die Längenverzerrungen von GPT-4. Damit wird dem Rechnung getragen, dass GPT-4 als Platzhirsch gilt und ein paar Eigenheiten hat, die andere Modelle bei fehlender Bereinigung benachteiligen würden.

Nun zu den Sprachmodellen aus der Community, die weniger bekannt sind. Die Rangliste für die Community-Modelle sieht so aus:

Wie zu sehen ist, steht das Modell mit dem Namen NullModel auf dem ersten Platz. Es weist eine LC Win Rate von 86,5 % auf. Im Gegensatz dazu hatte ChatGPT-4 Omni nur 57,5 % (16. Platz in der Rangliste, die auch die Community Modelle enthält).

Der Benchmark ist an sich kein guter Repräsentant für KI-Aufgaben, die in Ihrem Unternehmen oder Ihrer Behörde anfallen. Denn zum einen kommt es sehr auf die Aufgabe an. Manche Modelle können Fragen besser verstehen, andere besser schlussfolgern oder wieder andere können Texte besser zusammenfassen oder übersetzen.

Vor allem aber ist für deutsche Unternehmen relevant, dass Deutsch üblicherweise die Hauptsprache im Unternehmen und in Textdokumenten ist. Die Benchmarks sind aber üblicherweise für Englisch oder andere Sprachen, wie Chinesisch oder Indisch, optimiert.

Die Besonderheit des Testsiegers

An sich liefert ein Benchmark also eher einen Indikator als eine verlässliche Aussage.

Nun gibt es eine Besonderheit mit dem Testsieger, dem NullModel: Es hat geschummelt. Das Perfide aber kommt erst noch: Das Sprachmodell NullModel liefert immer dieselbe Antwort auf alle Fragen, die im Benchmark gestellt werden. Der Code dafür ist sogar öffentlich zugänglich.

Das NullModel kommt also auf den ersten Platz im Testergebnis, obwohl es auf alle gestellten Fragen immer dieselbe Antwort liefert. Die Fragen haben aber jeweils völlig unterschiedliche richtige Antworten. Wären die richtigen Antworten immer „Ja“ müsste man sich hier erst einmal keine Sorgen machen.

In Wahrheit sind also sehr viele unterschiedliche Antworten für die vielen Fragen im Benchmark richtig. Dennoch liefert der Benchmark die Bestnoten für das LLM, welches immer die gleiche Antwort liefert.

Der Benchmark hat sich also täuschen lassen.

Was ist das beste Sprachmodell?

Der Jurist würde sagen: Es kommt darauf an. Es kommt auf den Anwendungsfall an.

Wer nicht weiß, wofür ein KI-System eingesetzt werden soll, hat ganz andere Probleme als das beste Sprachmodell zu finden. Für einen allgemeinen Chatbot eignen sich die bekannten Modelle, die in der ersten Abbildung gezeigt sind, sehr gut.

Soll Wissen aus dem Internet hinzugezogen werden, versagt ChatGPT regelmäßig. Der Grund ist, dass ein Low Cost System (aus Sicht des Nutzers, der oft auch mit seinen Daten bezahlt) pro Prompt nicht beliebig viele Suchen im Internet ausführen kann. Das wäre schlichtweg unwirtschaftlich für OpenAI. Wie man über Anthropic und deren Computer Use-Ansatz lesen kann, wird es da schnell sehr teuer. Es kommen durchaus 20 Dollar pro Stunde für eine Aufgabe zusammen, die Recherchearbeit erfordert. Leider ist bei Abschicken der Aufgabe an die KI nicht bekannt, wie aufwändig es ist, das Ergebnis zu ermitteln.

Das beste Sprachmodell für einen Anwendungsfall in Ihrem Unternehmen ist ein feintrainiertes LLM.

Einige Empfehlungen für Sprachmodelle helfen beim richtigen Setup und den Start einer KI-Strategie.

Größe des Sprachmodells

Als Faustregel gilt: Je unspezifischer die Aufgabenstellung, desto größer sollte das LLM sein. Das Maximalbeispiel ist ChatGPT. Dieses Modell ist so riesig, dass die Hardware für den Betrieb Millionen Euro kostet (und noch viel mehr für OpenAI, weil mehr als nur 10 User das System benutzen).

ChatGPT kann Fragen aller Art beantworten und liefert sehr oft erstaunlich gute Ergebnisse. Allerdings können manchmal selbst einfache Fragen nicht richtig beantwortet werden. So kann ChatGPT die Anzahl der "r" im Wort Strawberry nicht richtig ermitteln. Außerdem greift ChatGPT auch auf Falschwissen zurück, das im LLM eingespeichert ist. Nicht nur daraus resultieren Halluzinationen.

Die Größe eines Sprachmodells wird in Milliarden Parametern angegeben. Eine Milliarde sind 1 B (B = Billion = englisch für Milliarde). Ein Parameter ist eine Verbindung zwischen zwei Neuronen im neuronalen Netzwerk.

Sehr kleine Sprachmodelle hingegen, wie beispielsweise Llama3.2-1B, sind gut geeignet für mobile Endgeräte oder generell für hohe Antwortgeschwindigkeiten. Darunter leidet allerdings die Antwortqualität. Allgemeinfragen können oft ganz gut beantwortet werden. Wird die Frage in Deutsch gestellt, sieht es wieder anders aus, nämlich schlechter. Die deutsche Grammatik wird hier nicht ausreichend gewürdigt.

Kleinere Sprachmodelle wie 7B- oder 8B-Modelle beherrschen die deutsche Sprache oft sehr gut. Sie können Texte zusammenfassen, Ideen generieren oder Texte übersetzen. Auf einem Standard-KI-Server ist die Ausführungsgeschwindigkeit mäßig.

Mit Hilfe heruntergerechneter Modelle kann die Geschwindigkeit der Inferenz gesteigert werden. Die Qualität leidet nur minimal darunter.

Am besten sind KI-Modelle, die in ein KI-System eingebettet sind und konkrete Aufgabenstellungen erledigen sollen. Ein KI-System ist eine Art Rahmenprogramm, das neben dem KI-Teil auch konventionelle Logik enthält. Warum soll ein Sprachmodell die Anzahl der Buchstaben in einem Wort zählen müssen, wenn ein klassischer Programmcode das viel schneller und viel besser, nämlich mit 100% Zuverlässigkeit, bewältigen kann?

Ein Beispiel für eine konkrete Aufgabenstellung ist ein KI-Assistent für die Personalabteilung. Ein Bewerber sendet auf eine Stellenanzeige hin seinen Lebenslauf an den Personaler. Der Personaler möchte nun wissen, wie gut der Lebenslauf des Bewerbers zu den Anforderungen passt, die in der Stellenanzeige (hoffentlich) genannt sind. Der KI-Assistent vergleicht nun den Lebenslauf mit der Stellenanzeige. Das KI-System drum herum sorgt dafür, dass der Lebenslauf und die darin genannten Fähigkeiten aus mehreren Perspektiven betrachtet werden: Welche geforderten Kenntnisse sind gut erfüllt und welche nicht? Welche herausragenden Eigenschaften hat der Bewerber generell, die für jedes Unternehmen wertvoll sein können?

Zusätzlich werden Feinheiten berücksichtigt: Ein Informatiker muss in seinem Lebenslauf nicht erwähnen, dass er JSON beherrscht. Entweder kann er das bereits oder er lernt es in 5 bis 45 Minuten. So etwas kann ChatGPT einfach nicht wissen. Aber die Fachabteilung weiß es und kann es dem KI-System eintrichtern.

Auch könnte der KI-Assistent für die Personalabteilung eine Online-Recherche zum Kandidaten ausführen und dem Personaler die Ergebnisse zur Sichtung präsentieren. Dies kann ebenfalls nicht von einem KI-Modell geleistet werden. Ein KI-System, das ChatGPT auch ist, tut das ebenfalls nicht für Sie. Jedenfalls nicht für ca. 22 Euro pro Monat oder für Bruchteile von Cents pro Anfrage. OpenAI will für Sie das Internet nicht weitläufig durchsuchen, weil Sie an OpenAI entweder gar kein Geld geben wollen oder schon bei 50 Euro über Ihre Kosten anfangen nachzudenken.

Mit Hilfe von Feintuning können Sprachmodelle an konkrete Aufgabenstellungen angepasst werden. Die Ergebnisse sind meistens deutlich besser als Sie es mit ChatGPT oder jeder anderen Universalintelligenz hinbekommen würden. Solche feintrainierten Modelle können zudem sehr klein sein. Somit ist die Inferenzgeschwindigkeit potentiell sehr hoch.

Weitere Modelle neben LLMs

Klassische Sprachmodelle sind wohl die am weitesten verbreiteten KI-Modelle. Aber es gibt noch weit mehr.

Beispielsweise gibt es sogenannte Safeguard-Modelle. Diese LLMs sind nur dazu da, um Eingaben eines Nutzers oder Ausgaben eines anderen Sprachmodells zu prüfen. Enthält die Eingabe eine Aufforderung zur rechtswidrigen Handlung? Enthält die Ausgabe eine Anleitung zum Bombenbau?

Für Klassifikationsaufgaben eignen sich andere Modelltypen besser als LLMs. Sie möchten beispielsweise herausfinden, welche Art von Email jemand an Ihre Firma geschickt hat. War es eine Anfrage? War es eine Beschwerde? War es eine Kündigung? Oder wollte der Absender nur einen Ansprechpartner genannt bekommen? Hierfür trainiert man einen Klassifikator. Das ist wenig Aufwand, bringt aber enorm viel.

Zur Unterstützung von weniger erfahrenen Mitarbeitern eignen sich hingegen Vektorsuchmaschinen sehr gut. Ein Kunde einer Autovermietung meldet einen Schaden per Email oder App. Der Mitarbeiter beim Autovermieter soll nun entscheiden, wie der Schaden reguliert wird. Der KI-Assistent sucht möglichst vergleichbare Fälle aus der Vergangenheit und präsentiert dem Mitarbeiter Empfehlungen für das wahrscheinlich beste Vorgehen. Solche historischen Daten sind insbesondere bei Versicherungen zuhauf vorhanden.

Bildmodelle sind allgemein bekannt. Sie leisten gute bis sehr gute Dienste. Noch besser geht es aber mit feintrainierten Bildmodellen oder Adaptern. Damit können Bilder nach Ihrer Vorgabe (Stil, Anmutung, Farbgebung, Motiv) produziert werden. Hier ein Beispiel:

Sicher kommen Sie drauf, was die Vorlage für diese Art von Bildern war. Die Anzahl der Beispiele zum Anlernen eines Bildadapters kann durchaus sehr gering sein. Oft reichen 8 oder 15 Beispiele, je nach Streubreite des Bildmaterials. Durch synthetische Ergänzung kann die Anzahl der Beispiele erhöht werden.

Für die Audiotranskription gibt es mittlerweile hervorragende Whisper-Modelle. Sie liefern deutlich besser Ergebnisse als der Microsoft-Standard in Teams. Das jedenfalls hat ein Test mit einem Datenschutzverlag ergeben. Gegenübergestellt wurde die Transkription mit Microsoft Teams und die von Dr. DSGVO mit Hilfe eines eigenen KI-Systems. Das eigene KI-System berücksichtigt ein firmenspezifisches Vokabular, das auch Nachnamen enthält. Kein Mensch weiß, ob Schmitt mit einem oder zwei "t" oder mit "dt" geschrieben wird, geschweige denn eine KI.

Beispiele für KI-Modelle und deren Fähigkeiten

Anhand von ein paar Beispielen soll demonstriert werden, wie Modellgröße, Aktualität des Modells und Art der Dateneingabe (Text, Bild, …) sich auf die Antwortqualität auswirken:

  • Llama3-7b: Nach heutigem Maßstab schlecht, bei Erscheinen grandios; kann gut auf eigener Hardware laufen
  • Llama3-1:8b: Sehr gut für viele Aufgaben; kann gut auf eigener Hardware laufen
  • Llama3-70b: Gut bis sehr gut für viele Aufgaben, aber teils schlechter als das neuere Llama3.1:8b; kann nur auf teurer Hardware vernünftig betrieben werden

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Quelle: Klaus Meffert, Dr. DSGVO Blog, Link: https://dr-dsgvo.de/ki-welches-sprachmodell-ist-das-beste
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

KI für Bildagenturen und Kreative