En ny sprogmodel (LLM) vakte for nylig en del opsigt. Den opnåede den højeste score i et populært benchmark og var endda betydeligt bedre end ChatGPT-4 Omni, den nuværende premium-model fra OpenAI. Men hvilken sprogmodel er egentlig den bedste?
Indledning
Med Benchmark AlpacaEval bliver nye sprogmodeller testet. Den såkaldte Win-Rate viser, hvor godt et LLM opfører sig i testen. Her er de første placeringer af modellerne, der kan betragtes som kendte:

På første plads står GPT-4 Omni fra OpenAI med en sejrshistorik på 57,5 %. Denne rate er længdebereinigt („LC Win Rate“). Det betyder, at længdestyrede (Overskudsprocenter) reducerer længdeforskellingerne af GPT-4. Derved bliver regning trukket for, at GPT-4 er en førende hingst og har nogle egenskaber, der ville benægte andre modeller uden bereinigelse.
Nu til de sprogmodeller fra fællesskabet, som er mindre kendte. Ranglisten for fællesskabets modeller ser sådan ud:

Som man kan se, ligger modellen med navnet NullModel på førstepladsen. Den har en LC Win Rate på 86,5 %. I modsætning hertil havde ChatGPT-4 Omni kun 57,5 % (16. plads på ranglisten, som også omfatter fællesskabets modeller).
Der Benchmark er en selvstændig god repræsentant for AI-opgaver, der forekommer i dit firma eller din myndighed. For det første kommer det meget på opgaven an. Nogle modeller kan bedre forstå spørgsmål, andre bedre slutte logisk eller igen andre kan bedre sammenføre tekst eller oversætte.
Specielt er det for tyske virksomheder relevant, at Tysk som regel er den hovedsprog i virksomheden og i tekstdokumenter. Benchmarkene er dog som regel tilpasset engelsk eller andre sprog, såsom kinesisk eller hindi.
Det særlige ved testvinderen
I sig selv er et benchmark derfor mere en indikator end et pålideligt udsagn.
Der er en særlighed ved vinderen af testen, NullModel: Det har bedraget. Det perfide kommer dog endnu: Sprogmødet NullModel leverer altid samme svar på alle spørgsmål, der stilles i benchmarken. Koden til det er selv offentlig tilgængelig.
Det NullModel kommer altså på første plads i testresultatet, selvom det altid diesel samme svar leverer på alle stillede spørgsmål. Spørgsmålene har dog hver især fuldstændig forskellige rigtige svar. Hvis de rigtige svar havde været "ja" hele tiden, skulle man ikke have noget at bekymre sig for her.
I sandhed er derfor mange forskellige svar til de mange spørgsmål i benchmarken korrekte. Alligevel giver benchmarken Bestnoter for LLM, som altid har samme svar.
Så benchmarket er blevet narret.
Hvad er den bedste sprogmodel?
En advokat ville sige: Det kommer an på det. Det afhænger af ansøgningen.
Hvis man ikke ved, hvad et AI-system skal bruges til, har man helt andre problemer end at finde den bedste sprogmodel. De velkendte modeller, der er vist i den første illustration, er meget velegnede til en generel chatbot.
Hvis man vil hente viden fra internettet, mislykker ChatGPT regelmæssigt. Grunden er, at et lavkostsystem (set fra brugerens synsvinkel, der ofte også betaler med sine data) ikke kan udføre en ubegrænset antal søgeresultater på internettet pr. prompt. Det ville være simpelthen økonomisk umuligt for OpenAI. Som man kan læse om Anthropic og deres Computer Use-ansætning, bliver det hurtigt meget dyrt. Der kommer faktisk 20 dollars per time sammen på en opgave, som kræver forskningsarbejde. Desværre er det ikke kendt ved at sende opgaven til AI'en, hvor vanskelig det er at finde ud af resultatet.
Den bedste sprogmodel til en use case i din virksomhed er en fint trænet LLM.
Nogle anbefalinger til sprogmodeller hjælper med den rigtige opsætning og starten på en AI-strategi.
Sprogmodellens størrelse
Som regel: Jo mere udefinieret opgaven er, desto større skal LLM være. Det maksimale eksempel er ChatGPT. Dette model er så stort, at hardware til drift koster millioner af kroner (og endnu meget mere for OpenAI, da flere end 10 brugere benytter systemet).
ChatGPT kan besvare alle slags spørgsmål og leverer meget ofte fantastiske resultater. Men selv de enkleste spørgsmål kan ikke altid besvares korrekt. Så kan ChatGPT f.eks. ikke rigtigt finde ud af hvor mange "r" der er i ordet Strawberry. Desuden trækker ChatGPT også på falskvidenskab, som er gemt i LLM'en. Det resulterer ikke kun i Halluzinationer.
Størrelsen på en sprogmodel angives i milliarder af parametre. En milliard er 1 B (B = milliard). En parameter er en forbindelse mellem to neuroner i det neurale netværk.
Kleine sprogmodeller im overgang hingegen, som f.eks. Llama3.2-1B, er godt egnet til mobil enheder eller generelt til høje responsfartighed. Under dette lidrer dog svarekvaliteten. Almindelige spørgsmål kan ofte godt besvare. Når spørgsmålet stilles på dansk, ser det anderledes ud, nemlig værre. Den danske grammatik bliver her ikke tilstrækkeligt værdiget.
Mindre språkmodeller som 7B- eller 8B-modeller behersker den tyske sprog ofte meget godt. De kan sammenfatre tekster, generere ideer eller oversætte tekster. På en standard-AI-server er udførelsesfart middel.
Med hjælp af herdownregnet model kan inferenshastigheden øges. Kvaliteten lider kun lidt derunder.
De bedste AI-modeller er dem, der er placeret i et AI-system og skal løse konkrete opgaver. Et AI-system er en slags rammeprogram, der både indeholder det kognitive del samt traditionel logik. Hvorfor skulle et sprogmodel tælle antallet bogstaver i et ord, når en klassisk programmerkode kan gøre det meget hurtigere og bedre, nemlig med 100% sikkerhed?
Et eksempel på en konkret opgave er en AI-Assistent for HR-afdelingen. En søger sender sin CV til HR efter at have set en annonce om stillingen. HR'eren vil nu gerne vide, hvor godt CV'et passer til de krav, der er nævnt i annoncen (håber). AI-assistenten sammenligner nu CV'et med annoncen. Det omgivende AI-system sørger for, at CV'et og de færdigheder, der nævnes i det, bliver set fra flere synsvinkler: Hvilke krævede viden er godt opfyldt og hvilke ikke? Hvilke fremtrædende egenskaber har søgeren generelt, som kan være værdifulde for enhver virksomhed?
Tilføjelser bliver også taget i betragtning: En datalog må ikke nævne i sit curriculum vitae, at han/hun har kendskab til JSON. Enten kan han/hun det allerede eller lærer det på 5-45 minutter. Sådan noget kan ChatGPT simpelthen ikke vide. Men den faglige afdeling ved det og kan indtænke det i AI-systemet.
En AI-assistent til personafdelingen kunne også udføre en Online forskning af kandidaten og præsentere resultaterne for personalechefen. Dette kan heller ikke gøres af et AI-system, selv om ChatGPT det også ikke gør for dig. I hvert fald ikke for ca. 22 euro om måneden eller for brøkdele af cent pr. anmodning. OpenAI vil ikke søge bredt på internettet fordi du enten ikke ønsker at give penge til OpenAI eller allerede begynder at overveje dine udgifter, når de nåer 50 euro.
Med hjælp af Finjustering kan sprogmodeller tilpasses til konkrete opgaver. Resultaterne er ofte meget bedre end, hvad du ville kunne nå med ChatGPT eller nogen anden universel intelligens. Sådanne fine-trained modeller kan desuden være meget små. Dermed er inferenshastigheden potentielt meget høj.
Andre modeller end LLM'er
Klassiske sprogmodeller er nok de mest udbredte AI-modeller. Men der findes mange flere.
Eksempelvis findes såkaldte Safeguard-model. Disse LLMs er kun til at kontrollere indtastninger fra en bruger eller udgivelser fra et andet sprogmodel. Indholder indtastningen en opfordring til ulovlige handlinger? Indholder udgivelsen en vejledning til at bygge bomber?
Klassifikationsopgaver passer bedre til andre modeltyper end LLMs. Du vil gerne finde ud af, hvilken slags e-mail nogen har sendt til din virksomhed. Var det en forespørgsel? Var det en klage? Var det en opsigelse? Eller ønskede senderen blot at få et kontaktstykke nævnt? Herfor træner man en klassifikator. Det er lidt besvær, men det bringer enormt meget.
Til støtte for mindre erfarne medarbejdere egner sig Vektorsuchmaschiner meget godt. En kunde til en biludlejning anmelder en skade via email eller app. Medarbejderen ved biludlejningen skal nu afgøre, hvordan skaden skal reguleres. AI-assistenten søger efter muligvis sammenlignelige tilfælde fra fortiden og præsenterer medarbejderen anbefalinger for det sandsynligvis bedste forhold. Sådanne historiske data er især i overflod hos forsikringsselskaber.
Billedmodeller er allgemeinsk kendte. De leverer gode til meget gode tjenester. Men det går endnu bedre med finejusterede billedmodeller eller Adaptern. Derved kan billeder produceres efter din ønske (stil, anmutning, farvegave, motiv). Her et eksempel:

Du vil helt sikkert være i stand til at finde ud af, hvad skabelonen for denne type billede var. Antallet af eksempler til undervisning i en billedadapter kan være meget lille. Ofte er 8 eller 15 eksempler tilstrækkeligt, afhængigt af billedmaterialets udbredelse. Antallet af eksempler kan øges ved syntetisk tilføjelse.
Audio transcription har nu fremragende Whisper-modeller, der leverer bedre resultater end Microsofts standard i Teams. Det mindste er resultatet af en test med en privatretssikkerhedsforlag. Transkriptionen blev sammenlignet med Microsoft Teams og den fra Dr. GDPR med hjælp af et eget AI-system. Eget AI-system tager hensyn til virksomhedens egne ordfører, der også omfatter efternavne. Ingen menneske ved, om Schmitt skrives med én eller to "t" eller med "dt", alene en AI.
Eksempler på AI-modeller og deres muligheder
Et par eksempler vil blive brugt til at demonstrere, hvordan modelstørrelse, modellens aktualitet og typen af datainput (tekst, billede, …) påvirker responskvaliteten:
- Llama3-7b: Dårlig efter nutidens standarder, fantastisk da den blev udgivet; kan køre godt på sin egen hardware
- Llama3-1:8b: Meget god til mange opgaver; kan køre godt på egen hardware
- Llama3-70b: God til meget god til mange opgaver, men til dels dårligere end den nyere Llama3.1:8b; kan kun betjenes fornuftigt på dyr hardware
- Llama3.1-70b: Meget god til mange opgaver; nogle få svagheder for tysk; kan kun køres ordentligt på dyr hardware
- Llama3.1-405b: Endnu bedre end Llama3.1:70b, men ikke nødvendigvis til tysk; kan kun køres fornuftigt på meget dyr hardware
- Llama3.2-3b: God, men dårligere end Llama3.1:8b, men hurtigere svar
Ud over disse LLM'er findes der andre modeltyper. Her er et par eksempler:
- Pixtral-12B: Meget god til afhøring af billeder. Acceptable krav til hardware
- Qwen2.5-72B: Meget god til at generere programkode; kan kun betjenes fornuftigt på dyr hardware
- FLUX.1-fast: nogle gange meget gode resultater ved generering af billeder, men ofte utilstrækkelige ved generering af tyske tekster i billedet; kan også betjenes rimeligt på billigere hardware med tricks
Kvaliteten af resultaterne varierer derfor afhængigt af modellens aktualitet og størrelse. Tekst har en tendens til at kræve et nøjagtigt output, bortset fra kreative opgaver. Situationen er ofte anderledes for billeder.
Konklusion
Definér din brugssituation. Hvis du ikke har nogen idé om, hvor AI kan hjælpe dig, så har du ikke brug for AI. Brug en søgemaskine i stedet, som altid.
Start med en simpel brugssag. Hvis du er i tvivl om, hvad der kan være enkelt, så spørg om råd.
Jo mindre AI-modellen er, jo mere specifik skal brugssituationen være. Meget store modeller, som dem med 405B parametre, bør normalt ikke drives af din virksomhed selv. Selv hvis ressourcerne var til rådighed, er der normalt bedre muligheder.
En 70B-model som Llama3.1-70B er allerede ret stor til selvbetjening. Dette er bare for at give dig en generel idé. Modeller, der ikke er større end halvdelen af denne størrelse, er bedre.
Til opgaver, der ikke kræver generative svar, er der bedre muligheder end de AI-modeller, som "alle" kender. Disse modeller er ideelle til at finde viden i din virksomheds dokumenter. Hardwarekravene er også så lave, at ingen behøver at tænke på købs- eller lejepriser. Semantisk søgning, dvs. sammenligning af tekster eller billeder (eller lyd eller …), er et andet eksempel på en fornuftig start på AI-alderen.
Wer sin Egen AI driverer, behøver sig ikke at bekymre om Datalækkeri meget eller overhovedet. Meget lidt bekymring sådan, hvis en GPU-server i Tyskland er lejet fra en tysk leverandør med DPA og ingen bekymringer, hvis en egen server står i dit datacenter eller er lejet via Colocation.
Egen AI betyder: Fuldstændig kontrol over dataene. Data går ikke nogen steder hen, bortset fra hvis du vil det selv. Data hentes ikke fra nogen sted, bortset fra hvis du vil det selv. Kun brugerne må via AI have adgang til dokumenter, som de er berettiget til. Det kaldes Offline-AI.
Afslutningsvis: Hvilken sprogmodel eller anden AI-model, der er bedst egnet til din brugssag, skal vurderes på baggrund af den specifikke brugssag. Der kommer nye AI-innovationer og -modeller hver uge. Så det er værd at se nærmere på.
Nøglebudskaber i denne artikel
NullModel er den "bedste" model i benchmarket, men den giver altid det samme svar på alle spørgsmål – hvilket ikke er særlig nyttigt. Den bedste sprogmodel afhænger af applikationen.
Til enkle spørgsmål er mindre sprogmodeller som 7B- eller 8B-modeller bedre egnet, da de ofte har bedre styr på tysk grammatik end større modeller.
AI-assistenter kan søge i historiske sager for at anbefale den bedste fremgangsmåde.
Start med en simpel applikation som f.eks. semantisk søgning i virksomhedsdokumenter.
Om disse centrale udsagn


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
