Wat is het verschil tussen pre-training en fine-tuning bij AI?

Pre-Training is het trainen van een AI-model met enorme hoeveelheden data, vergelijkbaar met het opvoeden van een kind. Fine-tuning daarentegen is het aanpassen van een reeds voorgeprogrammeerd model op specifieke taken of datasets om de prestaties te verbeteren.

Welke soorten data worden er nodig voor de pre-training van AI-modellen?

Voor de pre-training zijn enorme hoeveelheden data nodig, meestal uit bronnen zoals Common Crawl, The Pile of Wikipedia, om het model een breed scala aan kennis te geven. Deze data kan honderden gigabyte of zelfs terabytes omvatten.

Wat is pre-training bij AI-modellen?

Pre-training is het proces waarbij een AI-taalmodel getraind wordt met enorme hoeveelheden tekstdata om een algemeen begrip van taal en kennis te ontwikkelen. Dit proces vereist vaak terabytes aan data en duurt uren.

Wat is fine-tuning van LLM's en waar wordt het voor gebruikt?

Fine-tuning is een fijnafstemming, waarbij een reeds voorgetraind model wordt aangepast aan een specifieke taak of domein. Het vereist aanzienlijk minder data dan pre-training en wordt gebruikt om de prestaties van het model voor een bepaalde downstream-taak te verbeteren, bijvoorbeeld het samenvatten van teksten.

Hoe verschilt pre-training van fine-tuning bij taalmodellen?

Pre-training heeft als doel een uitgebreid, algemeen spraakmodel te creëren, terwijl fine-tuning een bestaand model optimaliseert voor een specifieke taak. Pre-training is intensiever en maakt gebruik van zeer grote datasets, terwijl fine-tuning efficiënter is en wordt toegepast op kleinere, taakspecifieke datasets.

Kan het fijntunen van AI-modellen juridische problemen uit het basismodel oplossen?

Nee, een illegaal basismodel blijft ook na het fijntunen illegaal. Nieuwe data kan de juridische situatie niet verbeteren, omdat het onderliggende probleem in het basismodel blijft bestaan.

Opleiding van kunstmatige intelligentiemodellen: wat betekent dat?

AI-taalmodellen en AI-beeldgeneratoren zijn de meest gebruikte soorten AI-modellen. Vaak wordt gesproken over training, pre-training of fine-tuning. Wat betekenen deze begrippen en wat zijn de verschillen? Welke gegevens en vooral hoeveel worden typisch voor welk proces nodig?

Inleiding

Een AI-model is een elektronisch brein dat bestaat uit een neuronaal netwerk. Het kan worden bevraagd en geeft een antwoord. Dit is op een bepaalde manier mogelijk die erg aan het menselijk brein doet denken. Andere meningen zijn erover. In elk geval berust ook het menselijke brein op statistiek. Tot het vraagstuk, wat intelligentie is, zie de verlinkte bijdrage.

Forbeelden van soorten AI-modellen zijn:

AI-Sprachmodel, vaak aangeduid als LLM (LLM = Large Language Model). Er zijn echter ook efficiënte SLMs (SLM = Small Language Model) beschikbaar.
AI-image generator: Uit een tekstinput wordt een beeld gegenereerd. Vaak kan ook uit een tekst en een invoerbeeld een nieuw beeld worden gemaakt. Of meerdere beelden kunnen stijlistisch met elkaar verbonden worden.
Tekst-na-spraak: Uit een invoertekst wordt door het AI-model een spraakuitvoeringsproduct gegenereerd
Spraak-naar-tekst: Uit een spraakinput produceert het AI-model een tekst (transcriptie)
Objectherkenning in beeld of video (segmentatie)
Geneeskundige prognosemodellen

In het volgende wordt voor de eenvoud alleen ingegaan op kunstmatige intelligentie-taalmodellen en kunstmatige intelligentie-afbeeldingsmodellen. Deze zijn zeer veelvoorkomende vertegenwoordigers in het domein van kunstmatige intelligentie.

Er zijn in wezen twee trainingsprocessen voor kunstmatige intelligentiemodellen:

Pre-Training (Voortraining)
Fine-Tuning (Finetunen)

Er zijn in de praktijk weinig verdere trainingsprocessen. Een fine-tuning van een al gefine-tuned model is nog denkbaar, wat uiteindelijk technisch analoog is aan het eerste fine-tuning.

Wat betekent pre-training en wat is de verschillende met fine-tuning? De volgende afbeeldingen beschouwen meerdere configuraties:

Voortraining ("Creëren") van een enorm groot taalmodel, zoals ChatGPT-4
Voortraining van een klein maar krachtig taalmodel (yes, dat is correct gelezen), zoals GPT-2
Finetunen van het model uit 1.
Finetunen van het model uit 2.

De gevallen 1 en 3 zijn meestal zaak van klokkende bedrijven. Het tweede geval komt zelden voor of als, dan wel voor grotere modellen dan GPT-2, zoals Llama3-8B. Maar ook het 8B-model wordt meestal door klokkende bedrijven gemaakt en aangeboden.

De vierde situatie is praktisch voor elk bedrijf haalbaar. Het focus van dit artikel zijn in het algemeen bedrijven die kunstmatige intelligentie willen invoeren, of organisaties die zulke bedrijven beheren.

Pre-Training

Voordienstelling betekent het leren van een AI-model. Het AI-model is er niet. Het wordt voorgedraaid (pre-training). Dan is het er.

Vaak wordt gesproken over "training". Training als begrip bestaat hier niet. Als iemand "training" zegt, bedoelt hij dan wel pre-training of fine-tuning, afhankelijk van de context die men heeft.

Als iemand het trainen van een Custom-GPT bedoelt, bedoelt hij fine-tuning. Als iemand in het algemeen spreekt over het trainen van een krachtig taalmodel, bedoelt hij pre-training (ongeveer: "Het trainen van ChatGPT-4 heeft miljoenen uren rekenkracht gekost, heb ik gelezen").

Pre-Training is het leren van een AI-model.

Het komt overeen met de opvoeding van een kind vanaf zijn geboorte door zijn ouders tot aan het schoolonderwijs.

In twijfelgevallen moet men ervan uitgaan dat met "training" het "pre-training" bedoeld is, omdat dit taalkundig dichter bij ligt dan "fine-tuning".

Voor taalmodellen zijn miljarden documenten met tekst nodig om een zeer goede kwaliteit te hebben. Een document is meestal een uittreksel van een website uit het internet.

Bekende bronnen van gegevens zijn:

Gemeenschappelijke kruip (CC) of C4 (Colossale Gezuiverde Gemeenschappelijke Kruip): ongeveer 700 GB aan gegevens, uitsluiting van veel websites uit het internet
De Stapel: 825 GB aan data, volgens sommigen open-source
Wikipedia (in meerdere talen)
Gegevens van RefinedWeb: Gedupliceerde en gezuiverde versie van Common Crawl
StarCoder Data: ca. 780 GB aan gegevens voor het genereren van programmeertaalcode. Bronnen zijn voornamelijk GitHub en Jupyter Notebooks (dat zijn programmerblaadjes, gelijk Excel, maar voor de eenvoudige opmaak van deelbaar programmeercode).

Afhankelijk van de grootte van een taalmodel duurt het trainen erg lang (veel maanden) of slechts enkele uren. Voor zeer grote AI-modellen zijn er miljoenen GPU-uren nodig voor het pre-training. GPU staat voor grafische kaart. In een high-end server zitten acht grafische kaarten, die elk €25.000 kosten.

Zeer kleine taalmodellen (GPT-2) werden nog maar een paar jaar geleden niet als zeer klein beschouwd en waren de standaard. Een GPT-2 taalmodel kan in enkele uren, dagen of weken getraind worden op eigen AI-server of AI-laptop (vortraining = pre-training). Hoe lang het pre-trainen precies duurt, hangt af van omvang van de trainingsgegevens.

Om een AI-taalmodel zeer prestatief te laten zijn, worden enkele terabytes (duizenden gigabytes) aan rauwe tekst nodig om als trainingsgegevens te dienen.

Voor een goede start zijn zelfs honderd gigabyte voldoende, die snel samengelezen kunnen worden. Hiervoor duurt het aanleren van het AI-model (pre-training) slechts een beperkt aantal uren.

Hoe precies het ook nog steeds afhangt van het aantal iteraties. Een iteratie is ongeveer gelijk aan een scholengroep. Hoe meer groepen iemand in de school volgt, hoe hoger de kans dat de intelligentie stijgt. Precies zoals bij mensen brengt het echter uiteindelijk niets meer op om nog een jaar langer naar school te gaan. De leerprestaties kunnen net als bij mensen door te lang pre-training zelfs vernietigd worden en zich weer verslechteren.

Een AI-model dat door pre-training is gegenereerd, dus aangelernt werd, wordt ook wel basismodel of Foundation Model (FM) genoemd. Een basismodel kan voor algemene taken worden gebruikt. Hoe groter het basismodel is, hoe beter het ook specifieke taken kan oplossen. De grootte van een model drukt zich uit in de hoeveelheid neuronverbindingen. ChatGPT kan door zijn schiere grootte dus ook zeer goed rekenen (in ieder geval beter dan de meeste mensen op aarde, waarbij fouten die ChatGPT en mens respectievelijk maken worden meegenomen).