AI-språksmodeller och AI-bildgenererare är de mest spridda AI-modelltyperna. Ofta talar man om träning, pre-träning eller fine-tuning. Vad innebär dessa begrepp och vad är skillnaderna? Vilka data och framför allt hur många krävs för vilken process typiskt sett?
Inledning
Ett AI-modell är ett elektroniskt hjärna som består av ett neuronalt nätverk. Det kan ställas frågor och ge svar. Detta är på en sådan väg möjligt att det påminner om människans hjärna. Andra har en annan åsikt. I alla fall baserar sig också det mänskliga hjärnan på statistik. Till frågan, vad intelligens är, se den länkade artikeln.
Exempel på typer av kognitiva modeller är:
- AI-språkmodell, ofta kallad LLM (LLM = Large Language Model). Men nu finns det också effektiva SLMs (SLM = Small Language Model).
- AI-image generator: Utifrån en textinmatning skapas ett bild. Ofta kan även från en text och ett inmatningsbild ett nytt bild skapas. Eller så kan flera bilder stilistiskt kopplas ihop med varandra.
- Tekst-till-sång: Från en inmatad text skapar det artificiella intelligens-modellen en ljudutgång
- Tal till text: Från en språkinmatning genererar det artificiella intelligens-modellen en text (transkription)
- Bild- eller videobaserad objektidentifiering (segmentering)
- Läkemedelsprognosmodeller
Följande behandlar man enkelt förklarat bara kognitiva språkmodeller och kognitiva bildmodeller, som är mycket vanliga inom området.
Det finns i huvudsak två träningsprocesser för kognitiva modeller:
- Pre-Training (Förutbildning)
- Fine-Tuning (Finjustering)
Ytterligare träningsprocesser finns i praktiken inte. Tänkbart är ännu ett fine-tunning av ett redan fine-tunat modell, vilket slutligen tekniskt är analogt med det första fine-tunningen.
Vad innebär pre-träning och vad är skillnaden till fine-tuning? Följande beskrivningar tar hänsyn till flera konstellationer:
- Förberedelsesträning ("Skapa") av ett enormt stort språkmodell, som till exempel ChatGPT-4
- Förutbildning av ett litet stort språkmodell (yes, rätt läst), som till exempel GPT-2
- Finjustering av modellen från 1.
- Finjustering av modellen från 2.
Fallen 1 och 3 är vanligtvis uppdrag för konsultföretag inom AI. Fall 2 är ovanligare, men kan förekomma för större modeller än GPT-2, som till exempel Llama3-8B. Även det 8B-modell skapas och tillhandahålls vanligtvis av konsultföretag inom AI.
Den fjärde fallen är praktiskt taget realiserbar för varje företag. Artikeln i stort sett handlar om företag som vill införa AI, eller organisationer som tar hand om sådana företag.
Pre-Training
Förutbildning innebär att lära upp ett kognitivt artificiellt intelligens-modell. Modellen finns inte där. Den förutbildas (pre-training). Då är den där.
Tidigare talas ofta om "utbildning". Utbildning finns inte som begrepp i detta sammanhang. När någon säger "utbildning" menar han antingen pre-träning eller finjustering, beroende på vilken kontext som avses.
När någon pratar om träningen av ett custom-GPT menar han fine-tuning. När någon i allmänhet pratar om träningen av ett mäktigt språkmodell menar han pre-träning (ungefär: "Träningen av ChatGPT-4 har kostat många miljoner timmar beräknings tid, har jag läst").
Förtränings är att lära in ett kognitivt modell.
Det motsvarar utbildningen/fostranen av ett barn från födseln genom sina föräldrar, till och med skolgången.
I tvivel måste man anta att med "träning" det är "för-träningen" som avses, eftersom detta språkligt sett ligger närmare än "finjustering".
För språkmodeller krävs många miljarder dokument med text för att modellen ska kunna ha en mycket bra kvalitet. Ett dokument är vanligtvis ett utdrag från en webbsida på internet.
Kända datakällor är:
- Vanliga krasch (CC) eller C4 (Colossal Cleaned Common Crawl): cirka 700 GB data, uttagning av många webbplatser från internet
- Pilen: 825 GB data, uppgiftsvis Open-Source
- Wikipedia (på flera språk)
- Raffinerad Webb: Fördubblad och rensad version av Common Crawl
- StarCoder Data: ca 780 GB av data för att generera programkod. Källorna är främst GitHub och Jupyter Notebooks (det är programmeringsblad, liknande Excel, men för lätt skapande av delbar kod).
Beroende på storleken på ett språkmodell kan utbildningen vara extremt lång (flera månader) eller bara några timmar. För mycket stora AI-modeller har använts miljontals GPU-timmar för pre-träning. GPU betyder grafikkort. I en high-end AI-server finns 8 grafikkort som kostar cirka 25.000 euro styck.
Mycket små språkmodeller (GPT-2) betraktades fortfarande för bara några år sedan som standard och var inte uppfattade som små. Ett GPT-2-språkmodell kan tränas på ett eget AI-server eller AI-dator inom några timmar, dagar eller veckor (förträning = pre-training). Hur långt det exakta förträningen tar beror på storleken på de trainingsdata som används.
Om ett AI-språkmodell ska vara mycket effektivt krävs några terabyte (tusentals gigabyte) av råtexter som träningsdata.
För en bra start räcker även hundra gigabyte som snabbt kan läsas igenom. För detta tar det att träna upp AI-modellen (pre-träning) bara några timmar.
Hur långt exakt det hänger också av antalet iterationer. En iteration motsvarar ungefär en skolklass. Ju fler klasser någon har i skolan, desto högre är chansen att intelligensen stiger. Precis som hos människor gör det dock till slut ingenting mer att gå på skolan ett år längre. Lärandet kan precis som hos människor förstöras av för långt pre-tränande och sjunka igen.
Ett AI-modell som har tränats med förträning och därefter anpassats till en specifik uppgift kallas även grundmodell eller Foundation Model (FM). Ett grundmodell kan användas för allmänna uppgifter. Ju större grundmodellen är, desto bättre klarar den av specialiserade uppgifter. Storleken på ett modell uttrycks i antalet neuronanslutningar. ChatGPT kan tack vare sin enorma storlek även räkna mycket bra (i alla fall bättre än de flesta människor på denna jord, med inräknade fel som både ChatGPT och människa gör).
Fine-Tuning
Finjustering kan också kallas för finträning.
För att kunna justera ett modell krävs ett befintligt språkmodell för artificiell intelligens. Modellen är tillgänglig efter att den har blivit förtvunnet (pre-trained). Endast ett pre-tränat AI-modell kan undergås fine-tuning.
Finjustering är jämförbart med ett studium som man lägger till efter skolundervisningen.
Utan skolutbildning är ett studium inte möjligt eller heller inte meningsfullt.
Ett finjusteringsträning är då meningsfull, när ett modell ska utbildas för en viss uppgift. Med fine-tuning får språkmodellen därmed ytterligare träning.
Kanske kan ett språkmodell inte särskilt bra sammanfatta texter från början. Detta skulle också kunna vara tillfälligt, t.ex. för en läkarpraktik som använder ett helt annat ordförråd i läkarutskrifter än det som är inprogrammerat i AI-modellens utbildningsdata.
Finjusteringen förbättrar således förmågan hos ett tidigare tränat AI-modell när det gäller en specifik uppgiftshantering. Denna uppgiftshantering kallas också Downstream-Task.
Beroende på uppgiftsbeskrivning och grundegenskaper hos ett AI-modell samt den använda matematiska träningsmetoden är olika många data nödvändiga för att uppnå goda resultat.
För klassificering av texter kan ett hundratal exempel vara tillräckligt för att lyckas med fine-tuning. För att en AI-bildgenerator ska kunna lära sig stil från en konstnär räcker det med 10 exempel. Efter fine-tuningen skapar modellen sedan bilder som skulle ha kunnat målas av upphovsmannen till de 10 exemplarbilderna.
I stort sett är betydligt färre träningsdata för fine-tuning nödvändiga och också meningsfulla, i direkt motsats till pre-träning. Man kan räkna med att antalet datar för fine-tuning sällan överstiger 10 000 exempel. I stort sett är betydligt färre än dessa 10 000 exempel både nödvändiga och meningsfulla. Det beror på situationen. För fullständighetens skull ska ett undantag nämnas: Ett grundmodell tränas in med målet att det ska bli en faktiskt förbättrad version av grundmodellen. Detta hände till exempel med Llama3. Den fine-tagna varianten fick 64 000 datar som träningsdata. Detta är något som vanligtvis andra gör. Man kan sedan använda dessa förbättrade modeller som om de hade varit från början (pre-träning).
Finjustering sker i praktiken inom företag för små språkmodeller. Liten betyder inte att det inte är ett "stort språkmodell" LLM, utan beskriver relationen mellan "jättestort" (ChatGPT) och "väldigt bra LLM" (som Llama3-8B). ChatGPT har väl över 1000 miljarder neuronanslutningar, medan ett 8B-modell "bara" har 8 miljarder. Det "B" står för "billion" och betyder på engelska "miljard".
Pre-Training versus Fine-Tuning
Följande översikt visar skillnaderna mellan Pre-Training och Fine-Tuning kortfattat. I översikten ingår också kännetecken för dataskydd och syntetiska data. Syntetiska data är konstgjorda data som används för att utöka mängden av träningdata. Dessa data genereras med hjälp av AI-modeller!
| Egenskap | Pre-Training | Fine-Tuning |
|---|---|---|
| Syfte | Skapa ett allmänt AI-modell | Uppgradera ett befintligt AI-modell för en specifik uppgiftsbeskrivning |
| Analogi | Uppfostran av ett barn genom sina föräldrar + skolutbildning | Universitetsstudier eller ytterligare utbildning efter skoltiden |
| Antal träningsdata | Så många som möjligt, ofta miljarder datauppsättningar | Ofta räcker 10 exempel, ibland 100. Sällan blir det 10.000 eller fler exempel. |
| Beräkningstid | För moderna modeller många miljoner timmar | Få timmar till veckor |
| Personuppgiftsskydd | Kan praktiskt taget inte upprätthållas | Kan i princip (bara för de fina träningssätten) upprätthållas |
| Kan anonymisering ske? | I praktiken inte | Yes, i princip mycket bra |
| Upphovsrättshållande? | I praktiken inte | Yes, i princip mycket bra |
| Sinnlig syntetisk data? | Endast för nöden eller för förbättringar inom en modellserie | Yes, för multiplikation av utbildningsdata och för att öka variansen hos dessa |
Anonymiseringen av utbildningsdata för fine-tuning sker under samma villkor som dataskyddet: Alla data som redan har införts i grundmodellen vid pre-träning kan inte längre anonymiseras. Det ser ännu värre ut med upphovsrättskyddade data. För att se om det är ett skyddsvärt verk av någon annan ser man först och främst inte på data. Vid dataskyddet kan man i stället ofta avgöra om personer är inblandade.
Sammandrag
Från dataperspektiv är fine-tuning om några storleksordningar bättre hanterbara än pre-training. Det gäller dock bara de data som ingår i fine-tuningen. De ursprungliga trainingsdata för pre-träningen är redan sparade i det artificiella intellektmodell och kan återkallas.
Pre-Training är en teknisk utmaning. Ur ett mjukvaruperspektiv är det nästan samma sak som finjustering. Det kräver dock enorm datorkapacitet och en extremt stor mängd träningsdata.
Fine-Tuning är något helt annat. Den hanteras med prisvärd hårdvara i konsumentklass och kräver ofta lite eller mycket lite träningsdata.
Det fina träningen arver således "hjärnan" med sina sparade inledande träningsdata och lägger till några nya data. Dessa få nya data kan från GDPR:s synvinkel mycket väl hanteras. Trots detta förblir ett illegalt basmodell, som har blivit fintränat, ett illegalt fintränat modell. De illegala datumen i det basmodellen färgar således på alla efterföljande versioner av modellen. Ett litet illgiltigt kan inte bli giltigt genom att lägga till något giltigt.
Syntetiska data förbättrar inte riktigt kvaliteten eller sekretessen i ett grundmodell:
- Även syntetiska data kan innehålla en koppling till en person eller ett verk som är skyddat av upphovsrätt. Inget under, eftersom deras förebild ju är äkta data.
- När syntetiska data skapas genom att ändra på verkliga data kan det hända att falska uppgifter om personer uppstår. Detta skulle vara en försämring av den juridiska situationen i AI-språkmodellen.
Man kan allmänt säga att AI-modeller bara är konkurrenskraftiga om de har fått presentera så många och bra utbildningsdata som möjligt. Därmed är i princip alla tillgängliga konkurrenskraftiga Closed och Open Source AI-språkmodeller formellt rättsstridiga. Av intresse är också att Mistral har tränats med data från "open web", precis som Mistral själv säger.
Den pågående accepterade användningen av något formellt olagligt kommer sannolikt att leda till att den betraktas som laglig eller åtminstone tolereras i rättens logik vid AI.
Ett annat problem är användningen av molntjänster som ChatGPT eller Azure. Då skickas ofta data från tredje part eller egna affärshemligheter till amerikanska företag och deras nationella underrättelsetjänster.
Om argumentet för Datensäkerhet inte räcker, föreslås att man specificerar sina användningsfall och använder en optimerad AI. Denna typ av AI kallas här Offline-AI och körs självständigt, antingen på ett hyrt server eller ett eget företagsserver och ger ofta bättre resultat än allmänt intelligenta system som ChatGPT.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
