AI-taalmodellen en AI-beeldgeneratoren zijn de meest gebruikte soorten AI-modellen. Vaak wordt gesproken over training, pre-training of fine-tuning. Wat betekenen deze begrippen en wat zijn de verschillen? Welke gegevens en vooral hoeveel worden typisch voor welk proces nodig?
Inleiding
Een AI-model is een elektronisch brein dat bestaat uit een neuronaal netwerk. Het kan worden bevraagd en geeft een antwoord. Dit is op een bepaalde manier mogelijk die erg aan het menselijk brein doet denken. Andere meningen zijn erover. In elk geval berust ook het menselijke brein op statistiek. Tot het vraagstuk, wat intelligentie is, zie de verlinkte bijdrage.
Forbeelden van soorten AI-modellen zijn:
- AI-Sprachmodel, vaak aangeduid als LLM (LLM = Large Language Model). Er zijn echter ook efficiënte SLMs (SLM = Small Language Model) beschikbaar.
- AI-image generator: Uit een tekstinput wordt een beeld gegenereerd. Vaak kan ook uit een tekst en een invoerbeeld een nieuw beeld worden gemaakt. Of meerdere beelden kunnen stijlistisch met elkaar verbonden worden.
- Tekst-na-spraak: Uit een invoertekst wordt door het AI-model een spraakuitvoeringsproduct gegenereerd
- Spraak-naar-tekst: Uit een spraakinput produceert het AI-model een tekst (transcriptie)
- Objectherkenning in beeld of video (segmentatie)
- Geneeskundige prognosemodellen
In het volgende wordt voor de eenvoud alleen ingegaan op kunstmatige intelligentie-taalmodellen en kunstmatige intelligentie-afbeeldingsmodellen. Deze zijn zeer veelvoorkomende vertegenwoordigers in het domein van kunstmatige intelligentie.
Er zijn in wezen twee trainingsprocessen voor kunstmatige intelligentiemodellen:
- Pre-Training (Voortraining)
- Fine-Tuning (Finetunen)
Er zijn in de praktijk weinig verdere trainingsprocessen. Een fine-tuning van een al gefine-tuned model is nog denkbaar, wat uiteindelijk technisch analoog is aan het eerste fine-tuning.
Wat betekent pre-training en wat is de verschillende met fine-tuning? De volgende afbeeldingen beschouwen meerdere configuraties:
- Voortraining ("Creëren") van een enorm groot taalmodel, zoals ChatGPT-4
- Voortraining van een klein maar krachtig taalmodel (yes, dat is correct gelezen), zoals GPT-2
- Finetunen van het model uit 1.
- Finetunen van het model uit 2.
De gevallen 1 en 3 zijn meestal zaak van klokkende bedrijven. Het tweede geval komt zelden voor of als, dan wel voor grotere modellen dan GPT-2, zoals Llama3-8B. Maar ook het 8B-model wordt meestal door klokkende bedrijven gemaakt en aangeboden.
De vierde situatie is praktisch voor elk bedrijf haalbaar. Het focus van dit artikel zijn in het algemeen bedrijven die kunstmatige intelligentie willen invoeren, of organisaties die zulke bedrijven beheren.
Pre-Training
Voordienstelling betekent het leren van een AI-model. Het AI-model is er niet. Het wordt voorgedraaid (pre-training). Dan is het er.
Vaak wordt gesproken over "training". Training als begrip bestaat hier niet. Als iemand "training" zegt, bedoelt hij dan wel pre-training of fine-tuning, afhankelijk van de context die men heeft.
Als iemand het trainen van een Custom-GPT bedoelt, bedoelt hij fine-tuning. Als iemand in het algemeen spreekt over het trainen van een krachtig taalmodel, bedoelt hij pre-training (ongeveer: "Het trainen van ChatGPT-4 heeft miljoenen uren rekenkracht gekost, heb ik gelezen").
Pre-Training is het leren van een AI-model.
Het komt overeen met de opvoeding van een kind vanaf zijn geboorte door zijn ouders tot aan het schoolonderwijs.
In twijfelgevallen moet men ervan uitgaan dat met "training" het "pre-training" bedoeld is, omdat dit taalkundig dichter bij ligt dan "fine-tuning".
Voor taalmodellen zijn miljarden documenten met tekst nodig om een zeer goede kwaliteit te hebben. Een document is meestal een uittreksel van een website uit het internet.
Bekende bronnen van gegevens zijn:
- Gemeenschappelijke kruip (CC) of C4 (Colossale Gezuiverde Gemeenschappelijke Kruip): ongeveer 700 GB aan gegevens, uitsluiting van veel websites uit het internet
- De Stapel: 825 GB aan data, volgens sommigen open-source
- Wikipedia (in meerdere talen)
- Gegevens van RefinedWeb: Gedupliceerde en gezuiverde versie van Common Crawl
- StarCoder Data: ca. 780 GB aan gegevens voor het genereren van programmeertaalcode. Bronnen zijn voornamelijk GitHub en Jupyter Notebooks (dat zijn programmerblaadjes, gelijk Excel, maar voor de eenvoudige opmaak van deelbaar programmeercode).
Afhankelijk van de grootte van een taalmodel duurt het trainen erg lang (veel maanden) of slechts enkele uren. Voor zeer grote AI-modellen zijn er miljoenen GPU-uren nodig voor het pre-training. GPU staat voor grafische kaart. In een high-end server zitten acht grafische kaarten, die elk €25.000 kosten.
Zeer kleine taalmodellen (GPT-2) werden nog maar een paar jaar geleden niet als zeer klein beschouwd en waren de standaard. Een GPT-2 taalmodel kan in enkele uren, dagen of weken getraind worden op eigen AI-server of AI-laptop (vortraining = pre-training). Hoe lang het pre-trainen precies duurt, hangt af van omvang van de trainingsgegevens.
Om een AI-taalmodel zeer prestatief te laten zijn, worden enkele terabytes (duizenden gigabytes) aan rauwe tekst nodig om als trainingsgegevens te dienen.
Voor een goede start zijn zelfs honderd gigabyte voldoende, die snel samengelezen kunnen worden. Hiervoor duurt het aanleren van het AI-model (pre-training) slechts een beperkt aantal uren.
Hoe precies het ook nog steeds afhangt van het aantal iteraties. Een iteratie is ongeveer gelijk aan een scholengroep. Hoe meer groepen iemand in de school volgt, hoe hoger de kans dat de intelligentie stijgt. Precies zoals bij mensen brengt het echter uiteindelijk niets meer op om nog een jaar langer naar school te gaan. De leerprestaties kunnen net als bij mensen door te lang pre-training zelfs vernietigd worden en zich weer verslechteren.
Een AI-model dat door pre-training is gegenereerd, dus aangelernt werd, wordt ook wel basismodel of Foundation Model
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
