Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

AI: Welk taalmodel is het beste?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel als PDF (alleen voor abonnees van de nieuwsbrief)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Een nieuw taalmodel (LLM) heeft onlangs voor heel wat opschudding gezorgd. Het behaalde de hoogste score in een populaire benchmark en what zelfs aanzienlijk beter dan ChatGPT-4 Omni, het huidige topmodel van OpenAI. Maar welk taalmodel is nu echt het beste?

Inleiding

Met het Benchmark AlpacaEval worden nieuwe taalsystemen getest. De zogenaamde Win-Rate geeft aan hoe goed een LLM in de test presteert. Hier zijn de eerste plaatsen van de modellen die als bekend kunnen worden beschouwd:

Op de eerste plaats staat GPT-4 Omni van OpenAI met een win rate van 57,5 %. Deze rate wordt lengtecorrect („LC Win Rate“). Dat betekent dat de lengtec Winstpercentages worden verlaagd van GPT-4. Hiermee wordt rekening gehouden met het feit dat GPT-4 als plaatshirsch geldt en een paar eigenaardigheden heeft die andere modellen bij gebrek aan correctie benadelen zouden.

Nu de taalmodellen uit de gemeenschap die minder bekend zijn. De ranglijst voor de communautaire modellen ziet er als volgt uit:

Zoals te zien is, staat het model met de naam NullModel op de eerste plaats. Het heeft een LC Win Rate van 86,5%. ChatGPT-4 Omni had daarentegen slechts 57,5% (16e plaats in de ranglijst, waarin ook de community-modellen zijn opgenomen).

De benchmark is op zichzelf geen goede vertegenwoordiger voor AI-taken die in uw bedrijf of organisatie aan de orde zijn. Want komt het er namelijk heel veel op aan. Sommige modellen kunnen beter vragen begrijpen, andere beter concluderen of weer anderen kunnen tekst beter samenstellen of vertalen.

Voor Duitse bedrijven is het vooral relevant dat Duits doorgaans de hoofdtaal in het bedrijf en in tekstdocumenten is. De benchmarks zijn echter doorgaans voor Engels of andere talen, zoals Chinees of Hindi, geoptimaliseerd.

Het speciale kenmerk van de testwinnaar

Op zichzelf is een benchmark daarom meer een indicator dan een betrouwbare verklaring.

Er is een bijzonderheid met de winnaar, het NullModel: Het heeft gefraudeerd. Maar dat is nog niet alles: Het taalmodel NullModel geeft altijd dezelfde antwoord op alle vragen die in het benchmark gesteld worden. De code daarvoor is zelfs openbaar beschikbaar.

Het NullModel komt dus op de eerste plaats in het testresultaat, hoewel het altijd dezelfde antwoord geeft op alle gestelde vragen. De vragen hebben echter elk een volledig verschillende juiste antwoord. Waren de juiste antwoorden steeds "Ja" dan zou men zich hier niet meteen zorgen moeten maken.

In werkelijkheid zijn dus heel veel verschillende antwoorden voor de vele vragen in het Benchmark correct. Toch levert het Benchmark de Bestnoten voor het LLM, dat altijd hetzelfde antwoord geeft.

De benchmark is dus voor de gek gehouden.

Wat is het beste taalmodel?

Een advocaat zou zeggen: Dat hangt ervan af. Het hangt af van de aanvraag.

Als je niet weet waarvoor een AI-systeem gebruikt moet worden, heb je heel andere problemen dan het vinden van het beste taalmodel. De bekende modellen in de eerste afbeelding zijn zeer geschikt voor een algemene chatbot.

Als men weet uit het internet moet opzoeken, faalt ChatGPT regelmatig. De reden is dat een laag-budget systeem (vanuit de oogpunt van de gebruiker die vaak ook zijn gegevens betaald) per prompt niet oneindig veel zoekacties in het internet kan uitvoeren. Dat zou gewoonweg onrendabel zijn voor OpenAI. Zoals men bij Anthropic en hun Computer Use-benadering kan lezen, wordt het snel heel duur. Er komen doorlopend 20 dollar per uur samen voor een taak die onderzoekswerk vereist. Helaas is bij indienen van de opdracht aan de AI niet bekend hoe moeilijk het is om het resultaat te bepalen.

Het beste taalmodel voor een use case in uw bedrijf is een goed getrainde LLM.

Enkele aanbevelingen voor taalmodellen helpen bij de juiste opstelling en de start van een AI-strategie.

Omvang van het taalmodel

Als Rule of thumb geldt: Hoe onspecifieker de opdracht, hoe groter het LLM moet zijn. Het maximale voorbeeld is ChatGPT. Dit model is zo enorm dat de hardware om het te bedienen miljoenen euro's kost (en nog veel meer voor OpenAI, omdat er meer dan 10 gebruikers van het systeem gebruik maken).

ChatGPT kan vragen van alle soort beantwoorden en levert vaak zeer goede resultaten. Maar zelfs eenvoudige vragen kunnen soms niet goed worden beantwoord. Zo kan ChatGPT bijvoorbeeld de hoeveelheid "r" in het woord Strawberry niet correct tellen. Bovendien maakt ChatGPT ook gebruik van vals kennis dat is ingespeeld in het LLM. Niet alleen daardoor ontstaan Hallucinaties.

De grootte van een taalmodel wordt gespecificeerd in miljarden parameters. Eén miljard is 1 B (B = miljard). Een parameter is een verbinding tussen twee neuronen in het neurale netwerk.

Sehr kleine taalmodellen hingegen, zoals bijvoorbeeld Llama3.2-1B, zijn goed geschikt voor mobiele apparaten of in het algemeen voor hoge antwoord snelheden. Daaronder lijdt echter de antwoordkwaliteit. Algemene vragen kunnen vaak heel goed beantwoord worden. Wordt de vraag in het Duits gesteld, ziet het er weer anders uit, namelijk slechter. De Duitse grammatica wordt hier niet voldoende gewaardeerd.

Kleinere taalsystemen zoals 7B- of 8B-modellen beheersen de Duitse taal vaak zeer goed. Ze kunnen teksten samenvatten, ideeën genereren of teksten vertalen. Op een standaard-AI-server is de uitvoeringsnelheid matig.

Met behulp van gehercalculateerde modellen kan de snelheid van inferentie verhoogd worden. De kwaliteit lijdt er slechts marginaal onder.

De beste AI-modellen zijn die die in een AI-systeem zijn geïntegreerd en concrete taakopdrachten willen uitvoeren. Een AI-systeem is soort van een kaderprogramma, dat naast het AI-deel ook conventionele logica bevat. Waarom zou een taalmodel de hoeveelheid letters in een woord moeten tellen als klassieke programmeertaal dit veel sneller en beter kan, namelijk met 100% nauwkeurigheid?

Een voorbeeld van een concrete opgave is een AI-assistent voor de personeelsafdeling.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

AI voor fotoagentschappen en creatieven