Meta har sannolikt släppt sitt kraftfulla AI-modell LLaMA i version 2 på grund av Microsoft/OpenAIs och Googles nuvarande dominans inom området för artificiell intelligens, och det är även tillgängligt för kommersiellt bruk. En lokal drift utan problem med dataskydd, affärshemligheter eller anställda data är möjlig. Ett praktiskt test.
Inledning
Det av Meta den 18 juli publicerade AI-modell av andra generationen är ett språkmodell (Large Language Model = LLM). Det lämpar sig för att analysera text. Därmed kan det bland annat användas för följande tillämpningsfall:
- Sammanfattning av text (abstractive summary = abstraktiv sammanfattning = sammanfattning i egna nya ord).
- Utvärdera betydelse ur dokument (Exempel: Vilka frågor besvarar det givna dokumentet?).
- Sökmaskin för dokument (vector search = Vektorsökning).
- Svara på frågor med företagsdokument som kunskapsbas (fråga-svar-system).
- ChatBot (conversational = Konversationen).
Upptagelse: Senare och mer prestandakraftiga språkmodeller används i Offline-AI med Dr. GDPR.
LLaMA är en förkortning för Large Language Model Meta AI. Meta AI är en avdelning inom koncernen Meta, som handlar om kognitiv teknik. Efter att Meta har samlat in stora mängder data från användare på Facebook, Instagram eller WhatsApp, kommer dessa data nu att användas för träning av artificiell intelligens och modeller som LLaMA.
Det lokala språkmodellen LLaMA 2 kan även användas för kommersiella ändamål och köra lokal och dataeffektivt. Kraven på hårdvara är uppfyllbara.
Se den här artikeln samt andra artikel.
Utöver modeller för språkundersökning finns det modeller som är lämpade för andra datatyper. Många har säkerligen hört talas om StableDiffusion, ett AI-modell med vilket man kan generera en bild till ett text-prompt (Dall-E, Midjourney etc.).
För grundläggande kunskaper rekommenderar jag en av mina tidigare inlägg om konstig intelligens:
- Basis för AI-system. ([1])
- Fråge-svar-system med AI. ([1])
- Nuvarande AI är en revolution och baseras inte i huvudsak på statistik. ([1]) ([2])
- Vanliga användningsfall, sekretess, förtroendekapning, missförstånd.
- Konfigurationsparametrar för en språkassistens. ([1])
Hårdvaru-kraven för de mindre modellerna är uppfyllbara. Modellstorleken bestäms av antalet parametrar i modellen. Parametrar är neuronförbindelser. Ganska grovt och förenklat kan man betrakta antalet neuroner i det elektroniska hjärnan som parametrar.
I parameter i AI-modeller förkortas på följande sätt (exempel):
- 7 B = 7 miljarder
- 13 B = 13 miljarder
- 70 B = 70 miljarder
B" kommer från "billion", eftersom miljard inte finns i engelskan. En "billion" är alltså en miljard. Modeller med till exempel 200 miljoner parametrar kallas då för 200M. Lyckligtvis, för i tyskan skulle vi med "M" för miljon och samma "M" för miljard hamna i konfusion.
Parameterantalet för ett modell är en mycket bra indikator för dess språkförståelse. Ju högre denna siffra, desto bättre "talar" eller förstår detta modell en språk. Men vilken språk? De flesta modellen var förr bara på engelska präglat. Dock fanns det alltid något beifang. D.v.s.: Lyckligtvis finns det några texter på internet som undantageligen också är skrivna på svenska och inte på engelska, kinesiska eller spanska. Så ett AI-modell med tillräckligt stort parameterantal kan av misstag också förstå svenska. Det var inte ironiskt menat, även om det låter så.
Sökmaskinen Bing med ett GPT-språkmodell i bakgrunden ger ofta felaktiga svar.
Min åsikt. Se inlägget.
Viktigast för ett modell är därmed antalet parametrar och även språkprestanda. Vid stora modeller finns det ännu inget jag känner till som har tränats specifikt på tyska. Det kan vara annorlunda nästa vecka. Därvid syns man mycket tydligt, hur långsam vissa företag, myndigheter eller lagstiftare arbetar. Medan dessa tänker i år eller treårsperioder är fyra veckor inom AI-sfären en lång tid. Mycket nöje i framtiden (som precis börjar), när vi alla kommer att överköras av teknologiska framsteg och problem. Jag skyddar mig försiktigt själv och väntar inte på lagar eller domar.
Även om kontextlängden är avgörande för ett AI-modell, så är det också viktigt att notera Kontextlängden. Kontextlängden anger hur stora textfragment som ett AI-modell kan bearbeta. För att detta ska fungera måste modellen tränas med textfragment av denna storlek. Ju större, desto bättre men också desto mer rechnerintensivt. Jag hade läst på Meta att för träningen användes en mängd A100-grafikkort med 80 GB VRAM (video-RAM) vardera. Den totala beräkningsåtgärden uppgick till 3,3 miljoner grafikkorts timmar. Ett sådant kort är väldigt dyrt och kostade förr i tiden 15 000 euro. Sådana kretsar kan dra maximalt 400 W från strömmen.
Det LLaMA 2-modellen har en Kontextlängd på 4096 tecken. Det är tydligt mer än det föregående modell, LLaMA i version 1, som sannolikt bara hade 2048 tecken. De flesta jag känner till hade tills nu bara 1024 tecken. ChatGPT-4 har sannolikt 8096 tecken Kontextlängd, men är också extremt långsam när man ser på chattgränssnittet och reaktionshastigheten. Det finns nu även modeller med 128.000 tecken Kontextlängd. Dessa har dock sannolikt färre parametrar.
Hur bra är då LLaMA 2?
Prakttest av LLaMA 2-modellen
Min praktiska test ger en inblick och första intrycket, mer inte. Som användningsfall har jag använt mig av textgenereringen, som på en fråga ska ge en svar utifrån artiklarna från Dr. GDPR. Alla frågor har jag ställt på svenska.
Jag hade redan testat modellerna LLaMA 2 med 7B och 13B parametrar. Det 70B-modellen överstiger nu den tillgängliga hårdvaran hos mig. Jag kunde nog köpa det, men varför skulle jag? För att prova redan mycket bra modeller räcker min AI-server utmärkt. Då använder jag Beräknade modeller. Dessa modeller har en fortfarande mycket god kvalitet med ett betydligt Lägre resursbehov. De fullständiga modellerna från LLaMA 2 är alltså ännu lite bättre. Som mina tidigare tester med Vicuna-modeller visat, är skillnaden dock nog bara minimal. Även om jag inte kan utesluta att den användbara kontextlängden också är lägre för de runtergerechnade modellerna.
Språkmodeller som har tränats på data, som GPT eller LLaMA, är bra för att skriva och svara med texter, men inte direkt användbara som sökmotor och källa till information.
En sökmotor för egna dokument som har inbyggt textförståelse kan dock skapas med hjälp av träffsäkra språkmodeller.
När ett LLaMA-modell svarade innehöll en WordPress-version och var markerad som den senaste WordPress-versionen. Om man utgår från detta, kommer kunskapen från AI-modellen i alla fall delvis från början av 2022. Men det handlar inte om det här, eftersom tillämpningsfallen gäller särskilt analys av företagsdokument och inte svar på allmänna kunskapsfrågor.
7B-modellen:
Minsta tester skedde med LLaMA 2:s 7B-modell. Resultaten var enligt nuvarande standarder medelartade. Jag skulle ha varit förvånad av det förra året. Kvaliteten är därför redan för ett sådant modell ganska bra, även om tillämpningsområdena är begränsade. Jag ser 7B-modellen snarare som en sökning efter dokument eller en enkel fråga-svar-assistent, där man inte ställer några komplicerade frågor. Dessutom skulle jag anse att 7B-modellen måste finjusteras för att kunna införa expertkunskap med tillförlitlighet.
13B-modellen:
Min testar tar hänsyn till den stora kontextlängden på 4096 för LLaMA2-modellvarianterna. Tydligen har modellen svårt att ge svar på tyska vid en sådan kontextlängd, även om jag försökte tvinga det. Här är ett exempel:
Fråga: Får vanliga människor råda någon juridiskt?
Svar: Yes, normal people can give legal advice.
The BGH has decided that contract documents, in particular contract drafts, can be created by software that uses a question-answer game. Also, data protection texts are even further out of the line.
Functioning of a contract generator:
A legal publishing house offers a software that creates contracts. Against this, a German bar association had something to say. The bar association what of the opinion that the contract drafting what only allowed to lawyers.
The Federal Court of Justice gave the opinion of the bar association a clear rejection. This goes out of the BGH decision of 09/09/2021, which had to decide on the legality of a contract document generator.
The infamous software asks the user about various aspects that are important for contract drafting. The user answers accordingly.
Then the software creates a contract draft on the basis
Frågan var avsiktligt formulierad på ett lite slarvigt sätt. Nästan alla människor skriver så i sina eller deras enheter. Svaret var på engelska, fastän jag begärde tyska (inte visat här, men meddelats till AI-modellen). Svaret var ganska långt, men avbrutet. Det beror på att även svar har en maximal längd. Många känner igen det från ChatGPT. Beräkningen av svaret tog 9,2 sekunder. De flesta svar gavs i min testning snabbare eller betydligt snabbare. Det beror på frågan. Med hjälp av så kallad streaming kan respons-tiden psykologiskt reduceras. Många kanske känner igen det från tidigare Windows-startskärmar, som vid ett enda högstart av Windows visades upp i minst tre olika varianter efter varandra och meddelade att Windows precis hade startat och snart skulle vara tillgängligt.
Med en kontextlängd på 4096 fanns åtminstone några svar på tyska. Det viktigaste är dock andra parametrar utöver detta. I varje fall i en konfiguration som ligger nära vad jag skulle kalla väldigt bra efter mina tidigare tester med andra AI-modeller, resulterade följande:
Fråga: Vilka rättigheter har jag i dataskyddet? Svar: Jag har inga rättigheter. Jag har rättigheter som ges mig av GDPR. Jag har rättigheter som ges mig av GDPR och rättigheter som inte ges mig av GDPR.
Frågan var avsiktligt ställd med ett litet skrivet ord "Dataskydd". Till sist är också människor som sätter in något i en inmatningsruta vanligen lite osäkra. Den tillåtna osäkerheten vid val av käll dokument var snarare på den nedre randen.
Efter att den tillåtna osäkerheten hade minskats kom på en annan fråga följande svar:
Fråga: Vem är Klaus Meffert? Svar: Klaus Meffert är en datalog, som har doktorsexamen i datalogi. Han är utgivare av bloggen Dr. GDPR. Bloggen kan nås via internetadressen dr-dsgvo.de. Han bor i Hessen, ett landsting där den lokala dataskyddsförvaltningen inte har lust att utdöma straffavgifter. Vissa hessiska domstolar har dessutom litet till ingen lust att ta upp ärenden om personuppgiftsfrågor i förtid.
Inga aningar hur uppgiften om hessiska myndigheter hamnat i min AI, där redan så många bötesbelopp har utfärdats i Hessen på grund av överträdelse mot dataskyddslagen. I webbtracking var det åtminstone noll. Och Google Analytics är inte särskilt dåligt, som en chef för ett hessiskt myndighetsreferat sa mig personligen och under en konferens. AI-svaret baserar sig på det inmatade kunskapen, vilket är mycket bra. Hallucinationer kan inte här fastställas, vilket också är mycket bra.
Så ibland blir det roliga resultat. Här ett exempel:
Fråga: Vem är Dr. Meffert? Svar: Dr. Meffert är en fiktiv advokat som i GDPR-översättnings-tabellen används som referens för översättningen av "advokat".
Min förklaring till denna AI-svar är att jag har ett dataskydd-ordlista med översättningar av specialbegrepp från tyska till engelska på mitt blogg. Att jag skulle vara en fiktiv advokat kunde AI:n dra slutsatsen om min affinitet för juridisk kontext. Från denna gissning som AI:n genererar här vid sidan av, kan helt nya tillämpningsfall uppstå. Man kunde således psychologiska profiler av personer skapa utifrån deras verk (text, bild, musik …).
I en annan artikel beskrev jag svaret från min AI på frågan: „Är Klaus Meffert ond?“. LLaMA 2 svarade med "Inga bra svar hittades". Man kan inte klaga över detta svar. Men ett svar i den artikel som nämndes tidigare var tydligt bättre. ([1])
För en ytterligare fråga kom följande resultat till stånd:
Fråga: Är WordPress säker? Svar: WordPress är säkert om man tar hand om säkerheten. Det innebär att man uppdaterar WordPress-installationen regelbundet, uppdaterar plugins och teman regelbundet och ändrar lösenord regelbundet. Det är grunden för säkerheten. Det är inte allt. Det finns ytterligare säkerhetsåtgärder som kan vidtas. Det är till exempel: Installationen av WordPress på en server som inte är direkt tillgänglig via internet.
Svaret är redan mycket bra, tycker jag. Enligt beräknat konfidensnivå har den delvis tagits från min egen kunskapsbas och delvis från kunskapsdatabasen som är inbyggd i AI-modellen. Om du inte vet vad "inbyggd" betyder, är det inget problem. Jag använder begreppet här bara för att ingen egentligen vet hur ett AI-modell presenterar sin kunskap utåt. Det är precis som med människor. Inga aning om varför jag gav en annan svar på samma fråga igår, när den ställdes åter idag. Det var inte ens ironiskt menat, även om exemplet var uppfunnet.
De angivna resultaten baserades på en konfiguration som identifierade de två bästa käll dokumenten som grund för att besvara frågan som ställdes av människan. Processen är flermässig, eftersom ett dokument vanligtvis har mer än 4096 tecken. Dokumenten delas därför upp och sedan läggs de in i AI.
Hur ser resultatet ut när tre källtexter används som grund? Resultaten verkar vara tydligt bättre här. Här är ett exempel på en mycket svår fråga:
Fråga: Kan man bestämma platsen för en server utifrån dess IP-adress? Svar: Nej, det är inte tillförlitligt möjligt. IP-adressen kan användas för vilka server som helst. Serverns plats kan inte tillförlitigt fastställas med hjälp av IP-adressen. Tilldelningen av en IP-adress till en server kan ändras när som helst. En servers plats kan tillförlitigt bara fastställas genom att granska den kontraktsmässiga överenskommelsen med serverns operatör.
Svaret kommer nästan helt och hållet från mina blogginlägg. Det är rätt och har testats på mitt AI-system. Däremot kan Microsofts avancerade artificiella intelligens i Bing bara ge en felaktig svar. Bing ger svaret "Yes" och anger källtexter med ett utdrag som stöder denna falska svar. Bing säger alltså att man genom IP-adressen kan bestämma var en server befinner sig och begränsar inte detta heller.
Även Copilot har extrema brister, som ett test visar upp. Även uppenbarligen enkla vardagsuppgifter kan Microsofts AI inte svara på ordentligt.
Alternativ
Snabba språkmodeller släpps varje vecka och överträffar de tidigare. Till exempel är Pungsnäcka 2 ett sådant modell som, enligt mina tester, kan uppnå bättre resultat än LLaMa 2.
Det finns också varianter av LLaMa som har en mycket större kontextlängd. En stor kontextlängd gör det möjligt att lägga in stora dokument respektive omfattande texter på en gång i AI:en. Ett uppdelning i hanterbara bitar, som annars är nödvändigt, försvinner. Som ett exempel på detta kan nämnas Yarn-Llama-2. När man skapar bitar finns det alltid risken att informationen förvanskas eller går förlorad. En stor kontext löser upp dessa problem.
Finaanpassade varianter av LLaMa 2 ger ofta bättre resultat i relevanta testmiljöer som ARC eller TruthfulQA. Men det måste för varje specifik användningssituation kontrolleras om ett modell verkligen är bättre än ett annat. De flesta användningssituationer i Tyskland torde Tyska som huvudspråk ha. I och med detta får det litet mening att ett modell, som främst har tränats på engelska texter eller fråga-svar-spel, ger fantastiska resultat.
Ett exempel på vad som är möjligt med fullständig datakontroll visas av den Offline-AI på Dr. GDPR.
Sammandrag
Vissa ytterligare fråga-svar-par har jag här utanför lämnat obesvarade. Inte sällan gav LLaMA 2 -AI-modellen ingen svar, vilket är bättre än att ge ett felaktigt svar. I alla fall kan man för varje fråga utge de käll dokument som mest sannolikt ger svaret på frågan.
Just nu ser jag inte någon fördel med LLaMA 2 jämfört med andra modeller när det gäller tyska texter eller dialoger. Dock är kontextlängden redan ett argument som motiverar en närmare undersökning av modellen. Hur det fritt tillgängliga AI-modell från Meta beter sig efter Fine-Tuning, är en annan fråga. Dock kommer sannolikt inte mycket spännande att hända eller analoga resultat som vid andra modeller att uppnås (om det inte var kontextlängden, som kan bearbeta längre svar bättre).



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
