Meta har sandsynligvis udgivet sit kraftfulde AI-model LLaMA i version 2, på grund af den aktuelle overlegenhed fra Microsoft/OpenAI og Google i AI-området, også til kommerciel brug. En lokal drift uden problemer med persondata, forretningshemmeligheder eller ansætteres data er mulig. En praksistest.
Indledning
Det af Meta den 18.07. udgivne AI-Modell af anden generation er et sprogmodell (Large Language Model = LLM). Det egner sig til at analysere tekst. Således kan det blandt andet anvendes til følgende anvendelsesfald:
- Sammenfatning af tekst (abstractive summary = abstraktive sammenfatning = sammenfatning i egne nye ord).
- Udtrække betydninger fra dokumenter (Eksempel: Hvad svarer dette givne dokument på?).
- Søgemaskine for dokumenter (vector search = Vektorsuche).
- Svar på spørgsmål med virksomhedsdokumenter som kildesammenhæng (question-answering = Spørgsmål-Svar-system).
- ChatBot (conversational = Konversationen).
Opdatering: Nyere og mere kapable sprogmodeller bliver i Offline-AI på Dr. GDPR brugt. ([1])
LLaMA er en forkortelse for Large Language Model Meta AI. Meta AI er en afdeling af koncernen Meta, der beskæftiger sig med kognitiv teknologi. Efter at Meta har samlet store mængder data om brugere på Facebook, Instagram eller WhatsApp, bliver disse data nu anvendt til træning af kunstig intelligens og modeller som LLaMA.
Det lokale LLaMA 2-sprogmodel kan også bruges til kommerciel anvendelse og drives lokal og datavenlig. Hardwarekravene kan opfyldes.
Se denne artikel samt andre artikler.
Bortset fra modeller til at forstå sprog, findes der også modeller, som er egnet til andre dataformer. Mange har nok hørt om StableDiffusion, en AI-model, med hvilken man kan generere et billede ved hjælp af en tekst-indblik (Dall-E, Midjourney osv.).
For grundlæggende emner anbefaler jeg en af mine tidligere bidrag til kunstig intelligens:
- Basis for AI-systemer. ([1])
- Spørgsmål-svar-system med AI. ([1])
- Den nuværende AI er en revolution og baserer sig ikke i væsentlig grad på statistik. ([1]) ([2])
- Typiske anvendelsesfald, privatliv, fortrolighed, misforståelser. ([1])
- Konfigurationsparametre for en sprogassistents. ([1])
Hardware-kravene for de mindre modeller er tilgængelige. Modellens størrelse bestemmes af antallet af parametre i modellen. Parametrene er neuronforbindelser. Ganske groft og forenklet kunne man se på parametrene som antallet af neuroner i det elektroniske hjernebark.
I Parameters i AI-modeller bliver forkortet på følgende måde (eksempler):
- 7B = 7 milliarder
- 13B = 13 milliarder
- 70B = 70 milliarder
B" kommer fra "billion", fordi der ikke findes en milliard i engelsk. En "billion" er altså en milliard. Modeller med f.eks. 200 millioner parametre hedder så 200M. Lykke da, for i dansk ville vi blive ved med at blande "M" for million og det samme "M" for milliard sammen.
Parameterantalget for et model er en meget god indikator for dets sprogforståelse. Jo højere denne tal, desto bedre "taler" eller forstår dette model en sprog. Men hvilken sprog? De fleste modeller var tilbage i dag kun på engelsk præget. Men der var altid lidt bevandring. Dvs.: heldigvis er nogle tekster på internettet undtagelsesvis også på dansk og ikke på engelsk, kinesisk eller spansk skrevet. Så et AI-model med tilstrækkelig stor parameterantal kan af en fejl også forstå dansk. Det var ikke ironisk meningen, selv om det lyder sådan.
Søgemaskinen Bing med et GPT-sprogmodel i baggrunden leverer ofte fejlede svar.
Min mening. Se artiklen.
Det afgørende for et model er derfor antallet af parametre og også prægesproget. Der findes ikke endnu et stort model, som er specielt trænet på dansk. Det kan være anderledes næste uge. Dette viser meget tydeligt, hvor langsomt nogle virksomheder, myndigheder eller lovgiver arbejder. Mens disse tænker i år eller tre-årsperioder, er fire uger i AI-scenen en lang tid. Mange glade dage i fremtiden (som netop begynder), når vi alle bliver overvældet af teknologiske fremskridt og problemer. Jeg beskytter mig selv bedre ved at vente ikke på love eller domme.
Også afhængig af et AI-model er den såkaldte Kontekstlængde. Kontekstlængden angiver, hvor stor en tekstsekvens, der kan behandles af et AI-model. For at opnå dette skal AI-modellen trænes med tekstsekvenser, der har den samme kontekstlængde. Jo større, jo bedre, men også jo rechenintensivere. Jeg havde læst på Meta, at flere A100-grafikkort med hver 80 GB VRAM (video-RAM, forskellig fra det almindelige CPU-RAM) blev brugt til træning. Rechnetiden var på 3,3 millioner grafikkort-timer. Et sådant kraftigt grafikkort er meget dyrt. En enkelt enhed kostede før nylig 15.000 euro. Sådan et kraftigt grafikkort trækker maksimalt 400 Watt strøm fra stikket.
Det LLaMA 2-model har en Kontekstlængde på 4096 tegn. Det er tydeligvis meget mere end det forgængende model, LLaMA i version 1, der nok kun havde 2048 tegn. De fleste modeller jeg kender til dato har kun haft 1024 tegn. ChatGPT-4 har nok 8096 tegn Kontekstlængde, men er også meget langsom, hvis man ser på chat-overfladen og reaktions-tiden. Der findes nu selv modeller med en Kontekstlængde på 128.000 tegn. Disse er dog nok kun udstyret med få parametre.
Hvad godt er LLaMA 2 så?
Praksistest af LLaMA 2-modellen
Min praksistest giver en indsigt og første indtryk, mere ikke. Som anvendelsesfald har jeg brugt tekstgenereringen til at svare på spørgsmål, hvor svaret skal være fra artiklerne af Dr. GDPR. Alle mine spørgsmål har jeg stillet på dansk sprog.
Tjekket havde jeg de modeller LLaMA 2 med 7B og med 13B parametre. Det 70B model overstiger i øjeblikket den hardware, der er til rådighed for mig. Jeg kunne godt købe dette, men hvorfor skulle jeg? Til at prøve allerede meget gode modeller er min AI-server fuldstændig tilstrækkelig. Dertil bruger jeg Tidligere beregnede modeller. Disse modeller har en stadig meget god kvalitet på trods af et niedrigerem Ressourcenbedarf. De fulde modeller fra LLaMA 2 er således endnu lidt bedre. Som mine tidligere tests med Vicuna-modeller viser, er forskellen dog nok mere minimal. Alligevel kan jeg ikke udelukke, at den anvendelige kontekstlængde også er lavere ved de runtergerechnete modeller.
Trænede sprogmodeller som GPT eller LLaMA er egnet til at formulere tekster og svar, men ikke direkte brugbare søgemaskiner og kildesamlinger.
En søgemaskine til egen dokumenter, der har tekstforståelse, kan dog oprettes på basis af forudtrænede sprogmodeller.
Når LLaMA-modellen svarede, indeholdt en WordPress-version en WordPress-version og blev betegnet som den nyeste WordPress-version. Hvis man tager dette til grund, stammer viden fra AI-modellen mindst delvist fra begyndelsen af 2022. Her omkring handler det ikke, da anvendelsesfaldene er især analyse af virksomhedsdokumenter og ikke svarende på almindelige kendsgerninger.
7B-Model:
Min første test var med det 7B-model af LLaMA 2. Resultaterne var efter nuværende standarder middelgode. Jeg ville stadig være overrasket, hvis jeg havde gjort det sidste år. Kvaliteten er således allerede for et sådant model meget godt, selv om anvendelsesfaldene er begrænset. Jeg ser 7B-modellet snarere til at søge efter dokumenter eller en simpel spørgsmål-svar-assistent, hvor man ikke stiller komplekse spørgsmål. Desuden ville jeg anse, at 7B-modellen skulle fine-traines for at kunne indsætte eksperthåndværkskunne halvtroende pålideligt.
13B-Model:
Mine tester tager hensyn til den store kontekstlængde på 4096 for LLaMA2-modellvarianterne. Det ser ud til, at modellen har svært ved at give svar på tysk ved en sådan kontekstlængde, selv om jeg har forsøgt at tvinge det til det. Her er et eksempel:
Spørgsmål: Må almindelige mennesker lovligt rådgive nogen?
Svar: Yes, normal people can give legal advice.
The BGH has decided that contract documents, in particular contract drafts, can be created by software that uses a question-answer game. Also, data protection texts are even further out of the line.
Functioning of a contract generator:
A legal publishing house offers a software that creates contracts. Against this, a German bar association had something to say. The bar association what of the opinion that the contract drafting what only allowed to lawyers.
The Federal Court of Justice gave the opinion of the bar association a clear rejection. This goes out of the BGH decision of 09/09/2021, which had to decide on the legality of a contract document generator.
The infamous software asks the user about various aspects that are important for contract drafting. The user answers accordingly.
Then the software creates a contract draft on the basis
Spørgsmålet var bevidst formuleret lidt flabet. Det meste af menneskeheden skriver sådan ind i deres eller hendes enhed. Svaret var på engelsk, selv om jeg krævede tysk (her ikke vist, men meddelt til AI-modellen). Svaret var ret langt, men blev afskåret. Det skyldtes, at også svarene har en maksimal længde. Mange kender det fra ChatGPT. Beregningen af svaret tog her 9,2 sekunder. De fleste svar blev i mit test givet hurtigere eller meget hurtigere. Det kommer jo alt sammen på spørgsmålet an. Med hjælp af såkaldt streaming kan reaktions-tiden psykologisk reduceres. Mange kender måske endnu fra gamle dage Windows-startskærme, der ved et enkelt opstart af Windows kom frem i mindst tre forskellige varianter efter hinanden og hver gang meddelte, at Windows netop var startet og helt sikkert snart ville være tilgængelig.
Med en kontekstlængde på 4096 fandes der dog nogle svar på tysk. Det afgørende er ikke blot dette parameter, men også andre. I hvert fald i en konfiguration, som er nær den, jeg fra mine tidligere tests med andre AI-modeller ville betegne som meget god, opstod følgende resultat:
Spørgsmål: Hvilke rettigheder har jeg til beskyttelse af persondata? Svar: Jeg har ingen rettigheder. Jeg har rettighederne, som GDPR giver mig. Jeg har rettighederne, som GDPR giver mig, og rettighederne, som GDPR ikke giver mig.
Spørgsmålet var bevidst stillet med lille bogstav "privacy". Til sidst er også menneskelige spørger, der taster noget ind i en indtastefelt, sjældent særdeles forsigtig. Den tilladte uskarphed til valg af kilde dokumenter var mere på den nedre rand.
Efter at tillåtet usikkerhed var blev følgende svar på en anden spørgsmål:
Spørgsmål: Hvem er Klaus Meffert? Svar: Klaus Meffert er en datalog, der har doktorgrad i datalogi. Han er udgiver af bloggen Dr. GDPR. Bloggen kan nås på internettet under dr-dsgvo.de. Han bor i Hessen, det tyske land, hvor den danske dataskyddsmyndighed ikke har lyst til at udsende bøder. Nogle hessiske domstole har desuden meget lidt eller ingen lyst til at beskæftige sig med klager over brug af persondata.
Ingen anelse om hvordan oplysningen til hessiske myndigheder kom ind i min AI, hvor der allerede er så mange bøder udskrevet i Hessen på grund af overtrædelse af persondataloven. I web-tracking var det dog null. Og Google Analytics er ikke så slemt, som en chef for et hessisk ministerium sagde mig selv og ved en konference. AI-svaret bygger derfor på det indklikkede viden, hvilket er meget godt. Hallucinationer kan her ikke fastsættes, hvad der også er meget godt.
Tidligere er der kommet morsomme resultater ud af det. Her et eksempel:
Spørgsmål: Hvem er Dr. Meffert? Svar: Dr. Meffert er en fiktiv advokat, der i GDPR-oversættelsestabellen bruges som reference til oversættelsen af "advokat".
Min forklaring af denne AI-svar er, at der på min blog findes et dataskydd-ordbog med oversættelser af fagudtryk fra tysk til engelsk. At jeg ville være en fiktiv advokat kunne AI'et have trukket den op fra min interesse for juridisk sammenhæng. Udgående fra denne forestilling, som AI'et har genereret ved siden af, kunne nye anvendelsemuligheder opstå. Man kunne således psykologiske profiler af personer ud fra deres værker (tekst, billeder, musik …) generere.
I en anden artikel beskrev jeg svaret fra min AI på spørgsmålet: „Er Klaus Meffert ond?“ . LLaMA 2 svarede med „Ingen god svar fundet.“ Over denne svar kan man ikke klage. Men svaret i ovennævnte artikel var tydeligvis bedre. ([1])
For en yderligere spørgsmål blev følgende resultat opnået:
Spørgsmål: Er WordPress sikker? Svar: WordPress er sikker, hvis man tager sig af sikkerheden. Det betyder, at man har opdateret WordPress-installationen regelmæssigt, opdateret plugins og temaer regelmæssigt og ændret adgangskoderne regelmæssigt. Det er grundlaget for sikkerheden. Det er dog ikke alt. Der er endnu flere sikkerhedsforanstaltninger, der kan træffes. Det er f.eks.: Installation af WordPress på en server, som ikke direkte er tilgængelig fra internettet.
Svaret er allerede meget godt, synes jeg. Ifølge det beregnede konfidensinterval blev den delvis udgivet fra min egen viden og delvis fra den videndatabase, der er inernt i AI-modellen. Hvis du ikke ved hvad "inernt" betyder, er det ikke et problem. Jeg bruger dette ord her kun fordi ingen præcis ved hvordan et AI-modul udleverer sin viden udenfor. Det er lige så svært som med mennesker. Ingen anelse om hvorfor jeg gav en anden svar på samme spørgsmål, da det blev stillet mig i går. Det var ikke engang ironisk ment, selvom eksemplet var opfundet.
De ovennævnte resultater var baseret på en konfiguration, der identificerede de to bedste kilde-dokumenter som grundlag for at besvare den af mennesket stillede spørgsmål. Processen er flertydig, fordi et dokument normalt har flere end 4096 tegn. Dokumenterne blev således først fragmenteret og derefter indgivet i AI'en.
Hvad ser resultatet ud, når tre kilder dokumenter bruges som grundlag? Resultaterne synes her at være meget bedre. Her et eksempel på en meget svær spørgsmål:
Spørgsmål: Kan man på basis af IP-adressen finde ud af hvor en server befinder sig? Svar: Nej, det er ikke tilførligvis muligt. IP-adressen kan bruges på alle servere. Serverens placering kan ikke på en sikker måde fastslås ved hjælp af IP-adressen. Tilknytningen af en IP-adresse til en server kan ændres i det mindste hvilken som helst tid. Serverens placering kan kun på en sikker måde fastslås ved at undersøge den kontraktlige aftale med serverejer.
Svaret kommer næsten helt fra mine blogindlæg. Det er rigtigt og blevet testet på mit AI-system. Imidlertid kan Microsofts avancerede kunstig intelligens i Bing kun svare forkert på denne spørgsmål. Bing siger, at "yes" og nævner kilde dokumenter med en uddrag, der begrunder denne fejlelige svar. Bing siger altså, at man ved hjælp af IP-adressen kan afgøre hvor et server er placeret og begrænser dette ikke.
Copilot har også store svagheder, som en test viser. Selv forholdsvis simple hverdagsopgaver kan Microsofts AI ikke ordentligt besvare.
Alternativer
Der kommer nye sprogmodeller hver uge, der overgår de tidligere. Så er f.eks. Paddasøværter2 et model, som efter mine tester kan opnå bedre resultater end LLaMa 2.
Derudover findes der en del af LLaMa-varianten med en meget større kontekstlængde. En stor kontekstlængde gør det muligt at indflette store dokumenter eller omfattende tekster på én gang i AI'en. Et opdelt i håndlige kibbel, som ellers er nødvendigt, falder væk. Som model af denne art kan Yarn-Llama-2 nævnes. Når kibbel dannes, består der altid en fare for at informationer bliver forfalsket eller tabt. En stor kontekst løser disse problemer.
Feintrainerede varianter af LLaMa 2 leverer ofte bedre resultater i tilsvarende teststeder som ARC eller TruthfulQA. Alligevel skal for den specifikke anvendelse prøves, om et model virkelig er bedre end et andet. De fleste anvendelsesfald i Tyskland vil Tysk som primærsprog at have. Derfor bringer det lidt, hvis et model, der overvejende er trænet på engelske tekster eller spørgsmål-antwoord-spil, leverer fantastiske resultater.
Et eksempel på hvad der er muligt med fuld datakontrol, viser den Offline-AI på Dr. GDPR.
Konklusion
Nogle flere spørgsmål-svar-par har jeg her udenfor ladet være. Det sker ikke sjældent, at LLaMA 2 -AI-modellen ikke giver nogen svar, hvilket er bedre end en falsk svar. I hvert fald kan kildedokumenterne udstedes til hver spørgsmål, der vil give den mest sandsynlige svar på spørgsmålet.
I stunden øjeblik seer jeg fordelene ved LLaMA 2 i forhold til andre modeller, når det gælder tyske tekster eller dialoger, ikke. Dog er kontekstlængden allerede et argument, der gør det værd at undersøge modellen nærmere. Hvorvidt det fritagne AI-modell fra Meta efter Fine-Tuning opfører sig, er en anden spøg. Dog vil her sandsynligvis ikke meget spændende ske eller analoge resultater være til stede (hvis der ikke var kontekstlængden, som kan behandle længere svar bedre).



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
