Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

AI: Vilken språkmodell är bäst?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

En ny språkmodell (LLM) väckte nyligen stor uppståndelse. Den uppnådde högsta poäng i ett populärt benchmark och var till och med betydligt bättre än ChatGPT-4 Omni, den nuvarande premiummodellen från OpenAI. Men vilken språkmodell är egentligen bäst?

Inledning

Med Riktmärke AlpacaEval testas nya språkmodeller. Den så kallade Win-Rate anger hur bra ett LLM presterar i testet. Här är de första platserna bland modellerna som betraktas som välkända:

På första plats står GPT-4 Omni från OpenAI med en segerhastighet på 57,5 %. Denna hastighet är längdjusterad („LC Win Rate“). Det innebär att den längdjusterade vinstfrekvensen minskar de längdväxlande effekterna av GPT-4. Med det hänsyn tas till att GPT-4 anses vara en favorit och har några egenskaper som skulle fördela andra modeller utan justering.

Nu till språkmodellerna från gemenskapen som är mindre välkända. Rankinglistan för community-modellerna ser ut så här:

Som man kan se är modellen med namnet NullModel på första plats. Den har en LC Win Rate på 86,5 %. Däremot hade ChatGPT-4 Omni endast 57,5 % (16:e plats i rankingen, som även inkluderar community-modellerna).

Benchmarken är i sig inget bra sätt att representera AI-uppgifter som uppstår i ert företag eller myndighet. För det första kommer det mycket an på uppgiften. Vissa modeller kan förstå frågor bättre, andra kan dra slutsatser bättre medan vissa kan sammanfatta texter eller översätta dem bättre.

För tyska företag är det dock viktigare att Tysk vanligtvis är den huvudspråket i företaget och i textdokument. Mätetalen är dock vanligtvis optimerade för engelska eller andra språk, som kinesiska eller hindi.

Den speciella egenskapen hos testvinnaren

I sig är ett benchmark därför mer av en indikator än ett tillförlitligt uttalande.

Nu finns det en speciellhet med testvinnaren, NullModel: Det har bedragit. Det perfida är ännu värre: Språkmodellen NullModel ger alltid samma svar på alla frågor som ställs i benchmarken. Kod för detta är till och med offentligt tillgänglig.

Nullmodellen hamnar alltså på första plats i testresultatet, trots att det alltid samma svar ger till alla frågor som ställs. Frågorna har dock helt olika riktiga svar. Om de rätta svaren hade varit "yes" skulle man inte behöva oroa sig för detta.

I själva verket är det alltså många olika rätt svar på de många frågorna i benchmarken. Trots detta ger benchmarken Bestnoter för LLM:et, som alltid svarar med samma svar.

Benchmarken har alltså blivit lurad.

Vilken är den bästa språkmodellen?

En jurist skulle säga: Det beror på. Det beror på ansökan.

Om man inte vet vad ett AI-system ska användas till har man helt andra problem än att hitta den bästa språkmodellen. De välkända modellerna i den första illustrationen är mycket lämpliga för en allmän chatbot.

Om man vill hämta kunskap från internet fungerar ChatGPT inte regelbundet. Orsaken är att ett lågkostnadsystem (från användarens synvinkel, som ofta också betalar med sina data) inte kan utföra obegränsade sökningar på internet per prompt. Det vore enkelriktigt olönsamt för OpenAI. Som man kan läsa om Anthropic och deras Computer Use-ansats, blir det snabbt mycket dyrt. Det kan sammanställas till 20 dollar per timme för uppgifter som kräver forskningsarbete. Tyvärr är det inte känt av AI när uppgiften skickas in hur omfattande det är att ta fram resultatet.

Den bästa språkmodellen för ett användningsfall i ditt företag är en välutbildad LLM.

Några rekommendationer för språkmodeller hjälper till med rätt installation och starten av en AI-strategi.

Språkmodellens storlek

Som regel gäller att: Ju mer generell uppgiftsbeskrivning, desto större bör LLM vara. Det maximala exemplet är ChatGPT. Detta modell är så stort att utrustningen för drift kostar miljoner euro (och ännu mer för OpenAI, eftersom fler än 10 användare använder systemet).

ChatGPT kan besvara alla slags frågor och levererar ofta förvånansvärt bra resultat. Men ibland kan inte ens enkla frågor besvaras rätt. Så kan ChatGPT till exempel inte räkna antalet "r" i ordet Strawberry. Dessutom bygger ChatGPT också på falskt vetande som lagrats i LLM:en. Det leder inte bara till Halluzinationer.

Storleken på en språkmodell anges i miljarder parametrar. En miljard är 1 B (B = miljard). En parameter är en förbindelse mellan två neuroner i det neurala nätverket.

Väldigt små språkmodeller, som till exempel Llama3.2-1B, är bra för mobila enheter eller allmänt för höga svarshastigheter. Under detta lider dock svaren i kvalitet. Allmänna frågor kan ofta besvaras ganska bra. När frågan ställs på svenska ser det ut att vara ett annat fall, nämligen sämre. Den tyska grammatiken får här inte tillräckligt med uppmärksamhet.

Mindre språkmodeller som 7B- eller 8B-modellerna behärskar tyska ofta mycket bra. De kan sammanfatta texter, generera idéer eller översätta texter. På en standard-AI-server är utförandehastigheten måttlig.

Med hjälp av heruntergerechnete modeller kan inferenshastigheten ökas. Kvaliteten lider bara marginellt därav.

De bästa AI-modellerna är de som är inbyggda i ett AI-system och ska lösa konkrete uppgifter. Ett AI-system är en slags ramprogram som, utöver det kognitiva delen, även innehåller vanlig logik. Varför skulle ett språkmodell behöva räkna antalet bokstäver i ett ord när klassisk programkod kan göra det snabbare och bättre, nämligen med 100% tillförlitlighet?

Ett exempel på en konkret uppgift är ett AI-assistent för personalavdelningen. En sökande skickar sin ansökan till personalföretagaren efter att ha sett en annons. Personalföretagaren vill nu veta hur bra ansökningen passar in med de krav som anges i annonseringen (hoppas). AI-assistenten jämför nu ansökningen med annonseringen. Det kringliggande AI-systemet ser till att ansökningen och de färdigheter som nämns i den granskas från flera perspektiv: Vilka krav som är väl uppfyllda och vilka inte? Vilka utmärkande egenskaper har sökanden generellt, som kan vara värdefulla för varje företag?

Utöver det tas Finesser i beaktande: En datavetare behöver inte nämna i sin personliga beskrivning att han har kunskap om JSON. Antingen har han det redan eller lär sig det på 5 till 45 minuter. Sådant kan ChatGPT inte veta. Men specialavdelningen vet det och kan införa det i AI-systemet.

En AI-assistent för personalavdelningen kunde också utföra en online-research på kandidaten och presentera resultaten för personalsekreteraren att granska. Detta kan inte heller göras av ett AI-system, som även ChatGPT är. Ett sådant system gör det inte för er. I varje fall inte för ca 22 euro per månad eller bråkdelar av cent per fråga. OpenAI vill inte söka igenom internet på bred front, eftersom ni antingen inte vill ge några pengar till OpenAI eller redan börjar tänka på att ni har gått över era kostnader vid 50 euro.

Med hjälp av Finjustering kan språkmodeller anpassas till specifika uppgifter. Resultaten är oftast betydligt bättre än vad du skulle kunna uppnå med ChatGPT eller någon annan universell intelligens. Sådana finjusterade modeller kan dessutom vara mycket små. Därmed är inferenshastigheten potentiellt mycket hög.

Andra modeller än LLM

Klassiska språkmodeller är förmodligen de mest spridda AI-modellerna. Men det finns många fler.

Till exempel finns det så kallade Safeguard-Modeller. Dessa LLMs är bara till för att kontrollera inmatningen från en användare eller utdata från ett annat språkmodell. Innehåller inmatningen en uppmaning till olaglig handling? Innehåller utdata en instruktion om hur man bygger bomber?

För klassificeringsuppgifter är andra modelltyper bättre lämpade än LLMs. Du vill exempelvis veta vilken typ av e-post någon har skickat till din firma. Var det en begäran? Var det en klagomål? Var det ett uppsägningsskrivelse? Eller ville sändaren bara att få en kontaktperson nämnd? Här tränar man en klassifikator. Det är liten ansträngning, men ger enormt mycket.

För att stödja mindre erfarna medarbetare är Vektorsuchmaschiner mycket bra. En kund till en biluthyrningsfirma rapporterar ett skadefall via e-post eller app. Den anställda vid biluthyrningen ska nu bestämma hur skadan ska regleras. AI-assistenten söker efter så liknande fall som möjligt från det förflutna och presenterar den anställda rekommendationer för det sannolikt bästa handlandet. Sådana historiska data finns i överflöd hos försäkringsbolag.

Bildmodeller är allmänt kända. De utför god till mycket god service. Men ännu bättre går det med finjusterade bildmodeller eller Adaptern. Då kan bilder produceras efter din önskan (stil, anstrykning, färgsättning, motiv). Här ett exempel:

Du kommer säkert att kunna räkna ut vad mallen för den här typen av bild var. Antalet exempel för att lära ut en bildadapter kan vara mycket litet. Ofta räcker det med 8 eller 15 exempel, beroende på bildmaterialets utbredning. Antalet exempel kan ökas genom syntetisk addition.

För Ljudtranskription finns det nu utmärkta Whisper-modeller. De ger tydligt bättre resultat än Microsofts standard i Teams. Det har visat sig genom ett test med en dataskyddsförlag. Transkriptionen jämfördes med Microsoft Teams och den som Dr. GDPR gjorde med hjälp av ett eget AI-system. Eget AI-system tar hänsyn till ett företagspecifikt ordförteckning, även efternamn är inräknade. Ingen människa vet om Schmitt skrivs med en eller två "t" eller med "dt", än mindre en AI.

Exempel på AI-modeller och deras kapacitet

Några exempel kommer att användas för att visa hur modellstorlek, modellens aktualitet och typ av datainmatning (text, bild, …) påverkar svarskvaliteten:

  • Llama3-7b: Dåligt med dagens mått mätt, bra när det släpptes; kan köras bra på sin egen hårdvara
  • Llama3-1:8b: Mycket bra för många uppgifter; kan köras bra på egen hårdvara
  • Llama3-70b: Bra till mycket bra för många uppgifter, men delvis sämre än den nyare Llama3.1:8b; kan bara användas på ett rimligt sätt med dyr hårdvara
  • Llama3.1-70b: Mycket bra för många uppgifter; några svagheter för tyska; kan bara köras ordentligt på dyr hårdvara
  • Llama3.1-405b: Ännu bättre än Llama3.1:70b, men inte nödvändigtvis för tyska; kan bara köras på ett rimligt sätt på mycket dyr hårdvara
  • Llama3.2-3b: Bra, men sämre än Llama3.1:8b, men snabbare svar

Förutom dessa LLM:er finns det andra modelltyper. Här är några exempel:

  • Pixtral-12B: Mycket bra för att förhöra bilder. Godtagbara krav på hårdvara
  • Qwen2.5-72B: Mycket bra för att generera programkod; kan bara användas på ett rimligt sätt på dyr hårdvara
  • FLUX.1-snabb: ibland mycket bra resultat vid generering av bilder, men ofta otillräckliga vid generering av tyska texter i bilden; kan också drivas rimligt på billigare hårdvara med tricks

Kvaliteten på resultatet varierar därför beroende på modellens aktualitet och storlek. Text tenderar att kräva exakta resultat, utom när det gäller kreativa uppgifter. Situationen är ofta annorlunda för bilder.

Sammandrag

Definiera ditt användningsfall. Om du inte har någon aning om var AI kan hjälpa dig, behöver du inte AI. Använd en sökmotor istället, som alltid.

Börja med ett enkelt användningsfall. Om du är osäker på vad som kan vara enkelt, be om råd.

Ju mindre AI-modellen är, desto mer specifikt bör användningsfallet vara. Mycket stora modeller, som de med 405B parametrar, bör vanligtvis inte drivas av ditt företag självt. Även om resurserna skulle finnas tillgängliga finns det oftast bättre alternativ.

En 70B-modell som Llama3.1-70B är redan ganska stor för självdrift. Detta är bara för att ge dig en allmän uppfattning. Modeller som inte är större än hälften av denna storlek är bättre.

För uppgifter som inte kräver generativa svar finns det bättre alternativ än de AI-modeller som "alla" känner till. Dessa modeller är idealiska för att hitta kunskap i dina företagsdokument. Hårdvarukraven är också så låga att ingen behöver tänka på inköps- eller hyrespriser. Semantisk sökning, dvs. jämförelse av texter eller bilder (eller ljud eller …), är ett annat exempel på en förnuftig start på AI-åldern.

Den som eget AI driver, behöver inte oroa sig för Datensäkerhet alls. Bara lite oro då om en GPU-server i Tyskland hyrs från en tysk leverantör med DPA och inget alls oro då om man har sin egen server i sitt datacenter eller hyrt den via Colocation.

Egen AI betyder: Fullständig kontroll över data. Data går ingenstans, utom om du vill det. Data hämtas inte från någon annan plats, utom om du vill det. Endast användarna får åtkomst till dokument med hjälp av AI, som de har rätt att ha tillgång till. Detta kallas Offline-AI.

Sammanfattningsvis: Vilken språkmodell eller annan AI-modell som är bäst lämpad för ditt användningsfall bör bedömas utifrån det specifika användningsfallet. Det kommer nya AI-innovationer och modeller varje vecka. Så det är värt att ta en närmare titt.

Viktiga budskap i denna artikel

NullModel är den "bästa" modellen i benchmarken, men den ger alltid samma svar på alla frågor – vilket inte är till någon större hjälp. Vilken språkmodell som är bäst beror på tillämpningen.

För enkla frågor är mindre språkmodeller som 7B- eller 8B-modeller bättre lämpade, eftersom de ofta behärskar den tyska grammatiken bättre än större modeller.

AI-assistenter kan söka i historiska fall för att rekommendera det bästa tillvägagångssättet.

Börja med en enkel applikation, t.ex. semantisk sökning i företagsdokument.

Om dessa grundläggande uttalanden
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

AI för bildbyråer och reklambyråer