Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

Træning af kognitivt netværk: Hvad betyder det?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel som PDF (kun for abonnenter på nyhedsbrevet)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

AI-sprogmodeller og AI-billeddannelse er de mest udbredte typer af AI-modeller. Ofte taler man om træning, pre-træning eller fine-tuning. Hvad betyder disse begreber og hvad er forskellen? Hvilke data og især hvor mange bliver typisk brugt til hvilken proces?

Indledning

Et AI-modul er et elektronisk hjerne, der består af et neuralt netværk. Det kan stilles spørgsmål og giver en svar. Dette er på en vis muligt på en måde, som meget ligner menneskehjernen. Andre har en anden mening om dette. I enhver fald bygger også det menneskelige hjerne på statistik. Til spørgsmålet hvad intelligens er, se den tilknyttede artikel.

Eksempler på typer af AI-modeller er:

  • AI-Språkmodel, ofte omtalt som LLM (LLM = Stor sprogmodel). Der er dog også nu også effektive SLMs (SLM = lille sprogmodel) til rådighed.
  • AI-Billedgenerator: Udgående fra en tekstindgang bliver et billede genereret. Ofte kan også ud fra en tekst og en indgangsbillede et nyt billede oprettet blive. Eller der kan flere billeder stilistisk forbundes med hinanden.
  • Tekst til Tale: Fra en indskrevet tekst frembringer det kognitive model en taleudgave
  • Tale-Tekst: Fra en taleindgang frembringer det kognitive model et tekst (transskription)
  • Billede- eller videofremhævelse af objekter (segmentering)
  • Lægevidenskabelige prognosemodeller

Der følger en oversigt, hvor blot tale- og billedmodeller til kognitiv intelligens er nævnt. Disse er meget almindelige repræsentanter i det kognitive område.

Der er i hovedsagen to træningsprocesser for kognitivitet-modeller:

  1. Pre-Training
  2. Fine-Tuning (Finjustering)

Der praktiske praksis findes deres træningsprocesser næsten ikke. En mulighed er dog en fine-tuninger af et allerede fine-getunget model, hvilket i sidste ende teknisk er analogt til det første fine-tuning.

Hvad betyder pre-træning og hvad er forskellen til fine-tuningen? Følgende beskrivelser tager højstregning flere konstellationer i betragtning:

  1. Forudtræning ("Oprindelse") af et enormt stort sprogmodel, som f.eks. ChatGPT-4
  2. Forudtræning af et lille stort sprogmodel (yes, læs det rigtigt), som f.eks. GPT-2
  3. Finjustering af modellen fra 1.
  4. Finjustering af modellen fra 2.

Faldene 1 og 3 er som regel tilfælde for AI-koncerner. Fald 2 sker sjældent eller hvis, så er det typisk for større modeller end GPT-2, som f.eks. Llama3-8B. Men selv dette 8B-model bliver også typisk lavet og tilgængeligt af AI-koncerner.

Den fjerde situation er praktisk tilgængelig for enhver virksomhed. Artiklens fokus er generelt virksomheder, der vil indføre AI eller organisationer, der støtter sådanne virksomheder.

Pre-Training

Forudtræning betyder at lære et kognitivt mod til. Det kognitive mod er ikke der. Det bliver forudtrænet (pre-training). Så er det der.

Ofte taler man om "træning". Træning findes ikke som begreb i dette sammanhæng. Når nogen siger "træning", mener de enten pre-træning eller fine-tuning, alt efter hvilken kontekst der er tale om.

Når nogen taler om træning af en Custom-GPT, mener de fine-tuning. Når nogen i almindelighed taler om træning af et stærkt sprogmodel, mener de pre-træning (ca.: "Træningen af ChatGPT-4 har kostet mange millioner timer rechenzeit, har jeg læst").

Forudtræning er læring af et kognitivt netværk.

Det svarer til en børns opdragelse fra fødslen af gennem forældrene og frem til skolegangen.

I tvivlsomme tilfælde skal man antage, at med "træning" menes "for-træning", fordi dette udtryk er nærmere knyttet til ordvalget end "finjustering".

For at språkmodeller skal kunne have en meget god kvalitet, kræves det mange milliarder dokument med tekst. Et dokument er normalt en udskrivning af en hjemmeside fra internettet.

Kendte datakilder er:

  • Fælleskrabbe (CC) eller C4 (Colossal Cleaned Common Crawl): omkring 700 GB data, udtrækning af mange hjemmesider fra internettet
  • Pilen: 825 GB data, påstået åben kildekode
  • Wikipedia (på flere sprog)
  • RaffineretWeb: Uddybet og rensket version af Common Crawl
  • StarCoder Data: ca. 780 GB af data til at generere programmerkode. Kilder er især GitHub og Jupyter Notebooks (det er programmerblade, lignende Excel, men til let udarbejdelse af delbar programmerkode).

Afhængigt af størrelsen på et sprogmodel kan træningen være meget langvarig (mange måneder) eller blot få timer. For meget store AI-modeller er der brugt henholdsvis mange millioner GPU-timer til forudtræning. GPU betyder grafik-kort. I en høj-end AI-server er 8 grafikkort placeret, og prisen kan være på godt 25.000 euro.

Særligt små sprogmodeller (GPT-2) blev ikke set som særligt små for få år siden og var standarden. Et GPT-2 sprogmodel kan trænes på en egen AI-server eller AI-laptop i få timer, dage eller uger (vortræning = pre-træning). Hvor længe pre-træningen tager afhænger af størrelsen på træningsdatamaterialet.

For et AI-sprogmodel skal være meget kapabelt, kræves flere terabytes (tusindvis af gigabyte) med råtekst som træningsdata.

For en første god start er også 100 gigabyte tilstrækkeligt, der hurtigt kan læses sammen. Herfor tager træningen af det kognitive net (pre-træning) kun en overblikkelig mængde timer.

Hvor længe præcis afhænger også af antallet af iterationer. En iteration svarer i omegn til en skoleklasse. Jo flere klasser nogen besøger på skolen, jo højere er chancen for at intelligensen stiger. Præcist som hos mennesker bringer det dog snart ikke mere noget godt ved at gå på skole længere end nødvendigt. Læringsresultatet kan ligesom hos mennesker blive ødelagt af for meget pre-træning og selv omvendt.

Et AI-modell, der er skabt ved hjælp af pre-træning, altså blevet trænet, kaldes også grundmodell eller Foundation Model (FM). Et grundmodell kan bruges til at løse generelle opgaver. Jo større grundmodellen er, desto bedre kan den også løse specifikke opgaver. Størrelsen på et modul udtrykker sig i antallet af sine neuroneforbindelser. ChatGPT kan på grund af sin enorme størrelse også meget godt regne (i hvert fald bedre end de fleste mennesker på denne jord, hvis man medregner fejlerne, som både ChatGPT og mennesket gør).

Fine-Tuning

Finjustering kan også kaldes for fine-træning.

Forudsætning for fine-tuningen er, at der findes et eksisterende AI-sprogmodel. Det AI-model er til rådighed efter det har været prætrænet (pre-trained). Kun et pre-trænet AI-model kan undergå fine-tuning.

Finjustering er sammenlignelig med et studie, der hænges på efter skoleuddannelsen.

Uden skoleuddannelse er et studieumiddelbart ikke muligt eller heller ikke meningsfuldt.

Et fintænknings-træning er da meningsfuldt, når et model skal trænes til en bestemt opgave. Med fine-tuning bliver det sprogmodel herefter videreuddannet.

Muligvis kan et sprogmodel ikke godt sammenfatte tekster selv fra hjemmet. Det kunne også være tilfældigt, f.eks. for en lægepraksis, der bruger et helt andet ordforkning i patienter, end hvad det er indlejret i AI-modellens træningsdata.

Fine-tuningen forbedrer derfor evne til et tidligere trænet AI-model i forhold til en bestemt opgave. Denne opgave bliver også kaldet Downstream-Task.

Afhængigt af opgaven og den grundlæggende egenskab af et AI-model samt den matematiske træningsmetode, der anvendes, er forskellig mange data nødvendige for at opnå gode resultater.

For klassifikation af tekster kan hundrede eksempler være nok til at gennemføre fine-tuning med succes. Hvis en AI-billedegenerator skal lære at opscanne stil fra en kunstner, er 10 eksempler godt nok. Efter fine-tuningen producerer det AI-model billeder, der kunne være malet af udgiveren af de 10 eksempelsbilleder.

I alt sammen er der betydeligt færre træningsdata nødvendige og også meningsfulde til fine-tuning, i modsætning til pre-træning. Man kan regne med, at antallet af datasets for fine-tuning sjældent overstiger 10.000 eksempler. Ofte er det betydeligt færre end disse 10.000 eksempler, der er meningsfulde og nødvendige. Det kommer alt sammen på tilfældet an. For fuldstændighedens skyld skal nævnes en særlig situation: Et grundmodel bliver fine-tunet med målet om at skabe en faktisk bedre version af grundmodellen. Dette skete f.eks. med Llama3. Den fine-tunede variant fik 64.000 eksempler til træningsdata. Dette sker normalt ikke selv om andre gør det. Man kan så bruge disse forbedrede modeller, som om de var blevet trænet fra begyndelsen (pre-træning).

Finetuning foregår i praksis i virksomheder for små sprogmodeller. Kort betyder ikke, at det ikke er et "stort sprogmodel" LLM, men henviser til relationen mellem "store" (ChatGPT) og "svært godt LLM" (som Llama3-8B). ChatGPT har vel over 1000 milliarder neuronforbindelser, hvorimod et 8B-model "kun" har 8 milliarder. Det "B" står for "billion" og betyder på engelsk "milliard".

Pre-Training versus Fine-Tuning

Den følgende oversigt viser forskellene mellem Pre-Training og Fine-Tuning kort og præcist. I oversigten er også privacy og syntetiske data inkluderet. Syntetiske data er kunstigt genererede data, til at udvide omfang af træningsdata. Disse data bliver opnået ved hjælp af AI-modeller!

EgenskabPre-TrainingFine-Tuning
FormålSkabning af et almindeligt kognitivt Kunstig Intelligens-modelForbedre et eksisterende AI-model til en bestemt opgaveopstilling
LignelseOpdragelse af et barn ved sine forældre + skoleuddannelseUniversitetsstudier eller videre uddannelse efter skolegangen
Antal træningsdataSå mange som muligt, ofte flere milliarder dataindgivelserOfte er der tale om 10 eksempler, ofte 100. Det sker meget sjældent, at det drejer sig om 10.000 eller flere eksemplarer.
BeregningstidFor moderne modeller mange millioner timerFå timer til uger
PersondataforskyldighedKan næsten ikke overholdesKan i princippet (kun for de fine træningsdata) overholdes
Mulig anonymisering?Praktisk ikkeYes, grundigt meget godt
Ophavsret i orden?Praktisk ikkeYes, grundigt meget godt
Synthetiske data meningsfuld?Kun til nød eller for bedreinger indenfor en modellbaneYes, til multiplikation af træningsdata og til at øge variansen af disse
Forskelle mellem pre-træning og fine-tuning af AI-modeller.

Den anonymisering af træningsdata til fine-tuning underlægges samme betingelser som den personlige integritet: Alle data, der allerede er blevet indført i grundmodellen ved fortræning, kan ikke længere anonymiseres. Det ser endnu værre ud med urheberrettsbeskyttede data. For data ser man først og fremmest ikke, om det er et beskytteligt værk af en anden. Ved den personlige integritet kan man dog ofte fastslå, om der er mennesker involveret.

Konklusion

Fra dataperspektiv er fine-tuning om mange størrelsesordener bedre håndterbare end pre-training. Dette gælder dog kun for de data, der trækkes med i fine-tuningen. De oprindelige træningsdata til pre-trainningen er allerede gemt i AI-modellen og kan afhentes.

Det fine træning erverver derfor "hovedet" med sine indlagte første træningsdata og tilføjer få nye data. Disse få nye data kan godt håndteres fra synspunkt af GDPR. Alligevel bliver en ulovlig grundmodel, som blev fine-trænet, en ulovlig fine-trænet model. De ulovlige data i grundmodellen fanger således på alle efterfølgende versioner af modellen. Noget ulovligt kan ikke gøre noget lovligt ved at tilføje noget lovlige.

Syntetiske data forbedrer ikke virkelig kvaliteten eller privatlivets beskyttelse i et grundmodel:

  • Synthetiske data kan også indeholde en reference til en person eller et værk, der er beskyttet af ophavsret. Det er ikke noget under, for de er jo inspireret af sande data.
  • Når man fremstiller syntetiske data ved at ændre på ægte data, kan det ske, at falske påstande om personer opstår. Det ville være en forringelse af den juridiske situation i AI-sprogmodellen.

Man kan sige generelt: AI-modeller er kun konkurrencedygtige, hvis de har fået præsentationen af så mange og gode træningsdata som muligt. Således er næsten alle tilgængelige konkurrencedygtige Closed og Open Source AI-sprogmodeller formalistisk ulovlige. Bemærk også, at Mistral også er blevet trænet med data fra "det åbne web", som Mistral selv siger.

Den pågældende accepterede brug af noget formelt ulovligt vil sandsynligvis føre til, at det bliver anset for tilladt eller i det mindste "ulovlige brug" tolereret ved AI efter logikken fra retsvidenskaben.

Et andet problem er brugen af Cloud-tjenester som ChatGPT eller Azure. Fordi der ofte bliver sendt data fra tredje part eller egne forretningshemmeligheder til amerikanske selskaber og deres nationale efterretningstjenester.

Hvis argumentet om Datensicherhed ikke er tilstrækkeligt, anbefales det at navne sine anvendelsesområder konkret og bruge en optimerede AI til dette formål. Denne type af AI kaldes her Offline-AI, den køre selvstændig, enten på en leaset server eller en egen server fra virksomheden, og leverer ofte bedre resultater end allmene intelligenser som ChatGPT.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Persondata: Hvad er personlige data?