Hvad er forskellen mellem prætræning og finjustering inden for AI?

Præ-træning er at træne en AI-model med enorme datamængder, ligesom at opdrage et barn. Finjustering derimod er at tilpasse en allerede præ-trænet model til specifikke opgaver eller datasæt for at forbedre dens ydeevne.

Hvilke typer data er der brug for til prætræning af AI-modeller?

Til præ-træning kræves der enorme mængder data, typisk fra kilder som Common Crawl, The Pile eller Wikipedia, for at give modellen en bred viden. Disse data kan omfatte flere hundrede gigabyte eller endda terabyte.

Hvad er prætræning af AI-modeller?

Prætræning er processen med at træne en KI-sprogmodel med enorme mængder tekstdata for at udvikle en generel forståelse af sprog og viden. Denne proces kræver ofte terabyte data og kan tage timer.

Hvad er finjustering af LLM'er, og hvornår bruges det?

Finjustering er en finjustering, hvor et allerede prætrænet model tilpasses til en specifik opgave eller domæne. Det kræver markant færre data end prætræning og bruges til at forbedre modellens ydeevne for en bestemt downstream-opgave, såsom tekstsammenfatning.

Hvordan adskiller præ-træning sig fra finjustering af sprogmodeller?

Præ-træning sigter mod at skabe en omfattende, generel sprogmodel, mens finjustering optimerer en eksisterende model til en specifik opgave. Præ-træning er mere ressourcekrævende og bruger meget store datasæt, mens finjustering er mere effektiv og anvendes på mindre, opgavespecifikke datasæt.

Kan finjustering af AI-modeller løse de juridiske problemer fra det underliggende model?

Nej, et ulovligt basismodel forbliver ulovligt, selv efter finjustering. Nye data kan ikke forbedre den juridiske situation, da det underliggende problem i basismodellen består.

Sichere KI, digitaler Datenschutz & Website-Compliance

AI-sprogmodeller og AI-billeddannelse er de mest udbredte typer af AI-modeller. Ofte taler man om træning, pre-træning eller fine-tuning. Hvad betyder disse begreber og hvad er forskellen? Hvilke data og især hvor mange bliver typisk brugt til hvilken proces?

Indledning

Et AI-modul er et elektronisk hjerne, der består af et neuralt netværk. Det kan stilles spørgsmål og giver en svar. Dette er på en vis muligt på en måde, som meget ligner menneskehjernen. Andre har en anden mening om dette. I enhver fald bygger også det menneskelige hj erne på statistik. Til spørgsmålet hvad intelligens er, se den tilknyttede artikel.

Eksempler på typer af AI-modeller er:

AI-Språkmodel, ofte omtalt som LLM (LLM = Stor sprogmodel). Der er dog også nu også effektive SLMs (SLM = lille sprogmodel) til rådighed.
AI-Billedgenerator: Udgående fra en tekstindgang bliver et billede genereret. Ofte kan også ud fra en tekst og en indgangsbillede et nyt billede oprettet blive. Eller der kan flere billeder stilistisk forbundes med hinanden.
Tekst til Tale: Fra en indskrevet tekst frembringer det kognitive model en taleudgave
Tale-Tekst: Fra en taleindgang frembringer det kognitive model et tekst (transskription)
Billede- eller videofremhævelse af objekter (segmentering)
Lægevidenskabelige prognosemodeller

Der følger en oversigt, hvor blot tale- og billedmodeller til kognitiv intelligens er nævnt. Disse er meget almindelige repræsentanter i det kognitive område.

Der er i hovedsagen to træningsprocesser for kognitivitet-modeller:

Pre-Training
Fine-Tuning (Finjustering)

Der praktiske praksis findes deres træningsprocesser næsten ikke. En mulighed er dog en fine-tuninger af et allerede fine-getunget model, hvilket i sidste ende teknisk er analogt til det første fine-tuning.

Hvad betyder pre-træning og hvad er forskellen til fine-tuningen? Følgende beskrivelser tager højstregning flere konstellationer i betragtning:

Forudtræning ("Oprindelse") af et enormt stort sprogmodel, som f.eks. ChatGPT-4
Forudtræning af et lille stort sprogmodel (yes, læs det rigtigt), som f.eks. GPT-2
Finjustering af modellen fra 1.
Finjustering af modellen fra 2.

Faldene 1 og 3 er som regel tilfælde for AI-koncerner. Fald 2 sker sjældent eller hvis, så er det typisk for større modeller end GPT-2, som f.eks. Llama3-8B. Men selv dette 8B-model bliver også typisk lavet og tilgængeligt af AI-koncerner.

Den fjerde situation er praktisk tilgængelig for enhver virksomhed. Artiklens fokus er generelt virksomheder, der vil indføre AI eller organisationer, der støtter sådanne virksomheder.

Pre-Training

Forudtræning betyder at lære et kognitivt mod til. Det kognitive mod er ikke der. Det bliver forudtrænet (pre-training). Så er det der.

Ofte taler man om "træning". Træning findes ikke som begreb i dette sammanhæng. Når nogen siger "træning", mener de enten pre-træning eller fine-tuning, alt efter hvilken kontekst der er tale om.

Når nogen taler om træning af en Custom-GPT, mener de fine-tuning. Når nogen i almindelighed taler om træning af et stærkt sprogmodel, mener de pre-træning (ca.: "Træningen af ChatGPT-4 har kostet mange millioner timer rechenzeit, har jeg læst").

Forudtræning er læring af et kognitivt netværk.

Det svarer til en børns opdragelse fra fødslen af gennem forældrene og frem til skolegangen.

I tvivlsomme tilfælde skal man antage, at med "træning" menes "for-træning", fordi dette udtryk er nærmere knyttet til ordvalget end "finjustering".

For at språkmodeller skal kunne have en meget god kvalitet, kræves det mange milliarder dokument med tekst. Et dokument er normalt en udskrivning af en hjemmeside fra internettet.

Kendte datakilder er:

Fælleskrabbe (CC) eller C4 (Colossal Cleaned Common Crawl): omkring 700 GB data, udtrækning af mange hjemmesider fra internettet
Pilen: 825 GB data, påstået åben kildekode
Wikipedia (på flere sprog)
RaffineretWeb: Uddybet og rensket version af Common Crawl
StarCoder Data: ca. 780 GB af data til at generere programmerkode. Kilder er især GitHub og Jupyter Notebooks (det er programmerblade, lignende Excel, men til let udarbejdelse af delbar programmerkode).

Afhængigt af størrelsen på et sprogmodel kan træningen være meget langvarig (mange måneder) eller blot få timer. For meget store AI-modeller er der brugt henholdsvis mange millioner GPU-timer til forudtræning. GPU betyder grafik-kort. I en høj-end AI-server er 8 grafikkort placeret, og prisen kan være på godt 25.000 euro.

Særligt små sprogmodeller (GPT-2) blev ikke set som særligt små for få år siden og var standarden. Et GPT-2 sprogmodel kan trænes på en egen AI-server eller AI-laptop i få timer, dage eller uger (vortræning = pre-træning). Hvor længe pre-træningen tager afhænger af størrelsen på træningsdatamaterialet.

For et AI-sprogmodel skal være meget kapabelt, kræves flere terabytes (tusindvis af gigabyte) med råtekst som træningsdata.

For en første god start er også 100 gigabyte tilstrækkeligt, der hurtigt kan læses sammen. Herfor tager træningen af det kognitive net (pre-træning) kun en overblikkelig mængde timer.

Hvor længe præcis afhænger også af antallet af iterationer. En iteration svarer i omegn til en skoleklasse. Jo flere klasser nogen besøger på skolen, jo højere er chancen for at intelligensen stiger. Præcist som hos mennesker bringer det dog snart ikke mere noget godt ved at gå på skole længere end nødvendigt. Læringsresultatet kan ligesom hos mennesker blive ødelagt af for meget pre-træning og selv omvendt.

Et AI-modell, der er skabt ved hjælp af pre-træning, altså blevet trænet, kaldes også grundmodell eller Foundation Model (FM). Et grundmodell kan bruges til at løse generelle opgaver. Jo større grundmodellen er, desto bedre kan den også løse specifikke opgaver. Størrelsen på et modul udtrykker sig i antallet af sine neuroneforbindelser. ChatGPT kan på grund af sin enorme størrelse også meget godt regne (i hvert fald bedre end de fleste mennesker på denne jord, hvis man medregner fejlerne, som både ChatGPT og mennesket gør).

Fine-Tuning

Finjustering kan også kaldes for fine-træning.

Forudsætning for fine-tuningen er, at der findes et eksisterende AI-sprogmodel. Det AI-model er til rådighed efter det har været prætrænet (pre-trained). Kun et pre-trænet AI-model kan undergå fine-tuning.

Finjustering er sammenlignelig med et studie, der hænges på efter skoleuddannelsen.

Uden skoleuddannelse er et studieumiddelbart ikke muligt eller heller ikke meningsfuldt.

Et fintænknings-træning er da meningsfuldt, når et model skal trænes til en bestemt opgave. Med fine-tuning bliver det sprogmodel herefter videreuddannet.

Muligvis kan et sprogmodel ikke godt sammenfatte tekster selv fra hjemmet. Det kunne også være tilfældigt, f.eks. for en lægepraksis, der bruger et helt andet ordforkning i patienter, end hvad det er indlejret i AI-modellens træningsdata.

Fine-tuningen forbedrer derfor evne til et tidligere trænet AI-model i forhold til en bestemt opgave. Denne opgave bliver også kaldet Downstream-Task.

Afhængigt af opgaven og den grundlæggende egenskab af et AI-model samt den matematiske træningsmetode, der anvendes, er forskellig mange data nødvendige for at opnå gode resultater.

For klassifikation af tekster kan hundrede eksempler være nok til at gennemføre fine-tuning med succes. Hvis en AI-billedegenerator skal lære at opscanne stil fra en kunstner, er 10 eksempler godt nok. Efter fine-tuningen producerer det AI-model billeder, der kunne være malet af udgiveren af de 10 eksempelsbilleder.

I alt sammen er der betydeligt færre træningsdata nødvendige og også meningsfulde til fine-tuning, i modsætning til pre-træning. Man kan regne med, at antallet af datasets for fine-tuning sjældent overstiger 10.000 eksempler. Ofte er det betydeligt færre end disse 10.000 eksempler, der er meningsfulde og nødvendige. Det kommer alt sammen på tilfældet an. For fuldstændighedens skyld skal nævnes en særlig situation: Et grundmodel bliver fine-tunet med målet om at skabe en faktisk bedre version af grundmodellen. Dette skete f.eks. med Llama3. Den fine-tunede variant fik 64.000 eksempler til træningsdata. Dette sker normalt ikke selv om andre gør det. Man kan så bruge disse forbedrede modeller, som om de var blevet trænet fra begyndelsen (pre-træning).

Finetuning foregår i praksis i virksomheder for små sprogmodeller. Kort betyder ikke, at det ikke er et "stort sprogmodel" LLM, men henviser til relationen mellem "store" (ChatGPT) og "svært godt LLM" (som Llama3-8B). ChatGPT har vel over 1000 milliarder neuronforbindelser, hvorimod et 8B-model "kun" har 8 milliarder. Det "B" står for "billion" og betyder på engelsk "milliard".

Pre-Training versus Fine-Tuning

Den følgende oversigt viser forskellene mellem Pre-Training og Fine-Tuning kort og præcist. I oversigten er også privacy og syntetiske data inkluderet. Syntetiske data er kunstigt genererede data, til at udvide omfang af træningsdata. Disse data bliver opnået ved hjælp af AI-modeller!

Egenskab	Pre-Training	Fine-Tuning
Formål	Skabning af et almindeligt kognitivt Kunstig Intelligens-model	Forbedre et eksisterende AI-model til en bestemt opgaveopstilling
Lignelse	Opdragelse af et barn ved sine forældre + skoleuddannelse	Universitetsstudier eller videre uddannelse efter skolegangen
Antal træningsdata	Så mange som muligt, ofte flere milliarder dataindgivelser	Ofte er der tale om 10 eksempler, ofte 100. Det sker meget sjældent, at det drejer sig om 10.000 eller flere eksemplarer.
Beregningstid	For moderne modeller mange millioner timer	Få timer til uger
Persondataforskyldighed	Kan næsten ikke overholdes	Kan i princippet (kun for de fine træningsdata) overholdes
Mulig anonymisering?	Praktisk ikke	Yes, grundigt meget godt
Ophavsret i orden?	Praktisk ikke	Yes, grundigt meget godt
Synthetiske data meningsfuld?	Kun til nød eller for bedreinger indenfor en modellbane	Yes, til multiplikation af træningsdata og til at øge variansen af disse

Forskelle mellem pre-træning og fine-tuning af AI-modeller.

Den anonymisering af træningsdata til fine-tuning underlægges samme betingelser som den personlige integritet: Alle data, der allerede er blevet indført i grundmodellen ved fortræning, kan ikke længere anonymiseres. Det ser endnu værre ud med urheberrettsbeskyttede data. For data ser man først og fremmest ikke, om det er et beskytteligt værk af en anden. Ved den personlige integritet kan man dog ofte fastslå, om der er mennesker involveret.

Konklusion

Fra dataperspektiv er fine-tuning om mange størrelsesordener bedre håndterbare end pre-training. Dette gælder dog kun for de data, der trækkes med i fine-tuningen. De oprindelige træningsdata til pre-trainningen er allerede gemt i AI-modellen og kan afhentes.

Det fine træning erverver derfor "hovedet" med sine indlagte første træningsdata og tilføjer få nye data. Disse få nye data kan godt håndteres fra synspunkt af GDPR. Alligevel bliver en ulovlig grundmodel, som blev fine-trænet, en ulovlig fine-trænet model. De ulovlige data i grundmodellen fanger således på alle efterfølgende versioner af modellen. Noget ulovligt kan ikke gøre noget lovligt ved at tilføje noget lovlige.

Syntetiske data forbedrer ikke virkelig kvaliteten eller privatlivets beskyttelse i et grundmodel:

Synthetiske data kan også indeholde en reference til en person eller et værk, der er beskyttet af ophavsret. Det er ikke noget under, for de er jo inspireret af sande data.
Når man fremstiller syntetiske data ved at ændre på ægte data, kan det ske, at falske påstande om personer opstår. Det ville være en forringelse af den juridiske situation i AI-sprogmodellen.

Man kan sige generelt: AI-modeller er kun konkurrencedygtige, hvis de har fået præsentationen af så mange og gode træningsdata som muligt. Således er næsten alle tilgængelige konkurrencedygtige Closed og Open Source AI-sprogmodeller formalistisk ulovlige. Bemærk også, at Mistral også er blevet trænet med data fra "det åbne web", som Mistral selv siger.

Den pågældende accepterede brug af noget formelt ulovligt vil sandsynligvis føre til, at det bliver anset for tilladt eller i det mindste "ulovlige brug" tolereret ved AI efter logikken fra retsvidenskaben.

Et andet problem er brugen af Cloud-tjenester som ChatGPT eller Azure. Fordi der ofte bliver sendt data fra tredje part eller egne forretningshemmeligheder til amerikanske selskaber og deres nationale efterretningstjenester.

Hvis argumentet om Datensicherhed ikke er tilstrækkeligt, anbefales det at navne sine anvendelsesområder konkret og bruge en optimerede AI til dette formål. Denne type af AI kaldes her Offline-AI, den køre selvstændig, enten på en leaset server eller en egen server fra virksomheden, og leverer ofte bedre resultater end allmene intelligenser som ChatGPT.