Welk taalmodel heeft de AlpacaEval Benchmark gewonnen?

Het NullModel taalmodel heeft de AlpacaEval benchmark gewonnen, ondanks dat het altijd hetzelfde antwoord op alle vragen gaf. Dit leidde tot een misleiding van de benchmark.

Waarom is de AlpacaEval Benchmark mogelijk niet betrouwbaar?

De benchmark is niet betrouwbaar vanwege de misleiding door het nulmodel, dat altijd hetzelfde antwoord geeft. Daarnaast is de benchmark vaak geoptimaliseerd voor het Engels, wat problematisch is voor Duitse bedrijven, omdat de Duitse taal niet voldoende wordt meegenomen.

Welke soorten AI-modellen zijn het meest geschikt om e-mails te categoriseren in bepaalde categorieën?

Classifier-modellen zijn uitstekend geschikt voor het categoriseren van e-mails, zoals vragen, klachten of opzeggingen. Deze modellen worden getraind met specifieke datasets om de verschillende soorten e-mails te herkennen.

Waarom zijn fijngetuned modellen vaak beter dan generieke AI-modellen zoals ChatGPT?

Gefinetuned modellen leveren betere resultaten, omdat ze specifiek zijn afgestemd op bepaalde taken. Door te trainen met relevante data, kunnen ze taken met een hogere nauwkeurigheid en efficiëntie oplossen dan modellen die universeel zijn getraind.

Welke hardware is nodig om Qwen2.5-72B effectief te gebruiken?

Qwen2.5-72B vereist dure hardware, omdat het een zeer groot model is en geoptimaliseerd is voor code genereren. Het is niet geschikt voor gebruik op goedkopere hardware.

Hoe beïnvloedt het modelgrootte van AI de resultaten bij tekstgeneratie?

Kleinere modellen zoals 7B- of 8B-modellen zijn vaak beter geschikt voor de Duitse grammatica en zijn daarom beter geschikt voor eenvoudige tekstgenereringstaken.

Is semantische zoekopdrachten een zinvolle eerste AI-toepassing?

Ja, semantisch zoeken in bedrijfsdocumenten is een goede start, omdat het geen grote hardware-eisen heeft en zich richt op het zoeken naar kennis.

AI: Welk taalmodel is het beste?

Een nieuw taalmodel (LLM) heeft onlangs voor heel wat opschudding gezorgd. Het behaalde de hoogste score in een populaire benchmark en what zelfs aanzienlijk beter dan ChatGPT-4 Omni, het huidige topmodel van OpenAI. Maar welk taalmodel is nu echt het beste?

Inleiding

Met het Benchmark AlpacaEval worden nieuwe taalsystemen getest. De zogenaamde Win-Rate geeft aan hoe goed een LLM in de test presteert. Hier zijn de eerste plaatsen van de modellen die als bekend kunnen worden beschouwd:

Op de eerste plaats staat GPT-4 Omni van OpenAI met een win rate van 57,5 %. Deze rate wordt lengtecorrect („LC Win Rate“). Dat betekent dat de lengtec Winstpercentages worden verlaagd van GPT-4. Hiermee wordt rekening gehouden met het feit dat GPT-4 als plaatshirsch geldt en een paar eigenaardigheden heeft die andere modellen bij gebrek aan correctie benadelen zouden.

Nu de taalmodellen uit de gemeenschap die minder bekend zijn. De ranglijst voor de communautaire modellen ziet er als volgt uit:

Zoals te zien is, staat het model met de naam NullModel op de eerste plaats. Het heeft een LC Win Rate van 86,5%. ChatGPT-4 Omni had daarentegen slechts 57,5% (16e plaats in de ranglijst, waarin ook de community-modellen zijn opgenomen).

De benchmark is op zichzelf geen goede vertegenwoordiger voor AI-taken die in uw bedrijf of organisatie aan de orde zijn. Want komt het er namelijk heel veel op aan. Sommige modellen kunnen beter vragen begrijpen, andere beter concluderen of weer anderen kunnen tekst beter samenstellen of vertalen.

Voor Duitse bedrijven is het vooral relevant dat Duits doorgaans de hoofdtaal in het bedrijf en in tekstdocumenten is. De benchmarks zijn echter doorgaans voor Engels of andere talen, zoals Chinees of Hindi, geoptimaliseerd.

Het speciale kenmerk van de testwinnaar

Op zichzelf is een benchmark daarom meer een indicator dan een betrouwbare verklaring.

Er is een bijzonderheid met de winnaar, het NullModel: Het heeft gefraudeerd. Maar dat is nog niet alles: Het taalmodel NullModel geeft altijd dezelfde antwoord op alle vragen die in het benchmark gesteld worden. De code daarvoor is zelfs openbaar beschikbaar.

Het NullModel komt dus op de eerste plaats in het testresultaat, hoewel het altijd dezelfde antwoord geeft op alle gestelde vragen. De vragen hebben echter elk een volledig verschillende juiste antwoord. Waren de juiste antwoorden steeds "Ja" dan zou men zich hier niet meteen zorgen moeten maken.

In werkelijkheid zijn dus heel veel verschillende antwoorden voor de vele vragen in het Benchmark correct. Toch levert het Benchmark de Bestnoten voor het LLM, dat altijd hetzelfde antwoord geeft.

De benchmark is dus voor de gek gehouden.

Wat is het beste taalmodel?

Een advocaat zou zeggen: Dat hangt ervan af. Het hangt af van de aanvraag.

Als je niet weet waarvoor een AI-systeem gebruikt moet worden, heb je heel andere problemen dan het vinden van het beste taalmodel. De bekende modellen in de eerste afbeelding zijn zeer geschikt voor een algemene chatbot.

Als men weet uit het internet moet opzoeken, faalt ChatGPT regelmatig. De reden is dat een laag-budget systeem (vanuit de oogpunt van de gebruiker die vaak ook zijn gegevens betaald) per prompt niet oneindig veel zoekacties in het internet kan uitvoeren. Dat zou gewoonweg onrendabel zijn voor OpenAI. Zoals men bij Anthropic en hun Computer Use-benadering kan lezen, wordt het snel heel duur. Er komen doorlopend 20 dollar per uur samen voor een taak die onderzoekswerk vereist. Helaas is bij indienen van de opdracht aan de AI niet bekend hoe moeilijk het is om het resultaat te bepalen.

Het beste taalmodel voor een use case in uw bedrijf is een goed getrainde LLM.

Enkele aanbevelingen voor taalmodellen helpen bij de juiste opstelling en de start van een AI-strategie.

Omvang van het taalmodel

Als Rule of thumb geldt: Hoe onspecifieker de opdracht, hoe groter het LLM moet zijn. Het maximale voorbeeld is ChatGPT. Dit model is zo enorm dat de hardware om het te bedienen miljoenen euro's kost (en nog veel meer voor OpenAI, omdat er meer dan 10 gebruikers van het systeem gebruik maken).

ChatGPT kan vragen van alle soort beantwoorden en levert vaak zeer goede resultaten. Maar zelfs eenvoudige vragen kunnen soms niet goed worden beantwoord. Zo kan ChatGPT bijvoorbeeld de hoeveelheid "r" in het woord Strawberry niet correct tellen. Bovendien maakt ChatGPT ook gebruik van vals kennis dat is ingespeeld in het LLM. Niet alleen daardoor ontstaan Hallucinaties.

De grootte van een taalmodel wordt gespecificeerd in miljarden parameters. Eén miljard is 1 B (B = miljard). Een parameter is een verbinding tussen twee neuronen in het neurale netwerk.

Sehr kleine taalmodellen hingegen, zoals bijvoorbeeld Llama3.2-1B, zijn goed geschikt voor mobiele apparaten of in het algemeen voor hoge antwoord snelheden. Daaronder lijdt echter de antwoordkwaliteit. Algemene vragen kunnen vaak heel goed beantwoord worden. Wordt de vraag in het Duits gesteld, ziet het er weer anders uit, namelijk slechter. De Duitse grammatica wordt hier niet voldoende gewaardeerd.

Kleinere taalsystemen zoals 7B- of 8B-modellen beheersen de Duitse taal vaak zeer goed. Ze kunnen teksten samenvatten, ideeën genereren of teksten vertalen. Op een standaard-AI-server is de uitvoeringsnelheid matig.

Met behulp van gehercalculateerde modellen kan de snelheid van inferentie verhoogd worden. De kwaliteit lijdt er slechts marginaal onder.

De beste AI-modellen zijn die die in een AI-systeem zijn geïntegreerd en concrete taakopdrachten willen uitvoeren. Een AI-systeem is soort van een kaderprogramma, dat naast het AI-deel ook conventionele logica bevat. Waarom zou een taalmodel de hoeveelheid letters in een woord moeten tellen als klassieke programmeertaal dit veel sneller en beter kan, namelijk met 100% nauwkeurigheid?

Een voorbeeld van een concrete opgave is een AI-assistent voor de personeelsafdeling.

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.

Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks

Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.

↓

Newsletter abonnieren