Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

Opleiding van kunstmatige intelligentiemodellen: wat betekent dat?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel als PDF (alleen voor abonnees van de nieuwsbrief)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

AI-taalmodellen en AI-beeldgeneratoren zijn de meest gebruikte soorten AI-modellen. Vaak wordt gesproken over training, pre-training of fine-tuning. Wat betekenen deze begrippen en wat zijn de verschillen? Welke gegevens en vooral hoeveel worden typisch voor welk proces nodig?

Inleiding

Een AI-model is een elektronisch brein dat bestaat uit een neuronaal netwerk. Het kan worden bevraagd en geeft een antwoord. Dit is op een bepaalde manier mogelijk die erg aan het menselijk brein doet denken. Andere meningen zijn erover. In elk geval berust ook het menselijke brein op statistiek. Tot het vraagstuk, wat intelligentie is, zie de verlinkte bijdrage.

Forbeelden van soorten AI-modellen zijn:

  • AI-Sprachmodel, vaak aangeduid als LLM (LLM = Large Language Model). Er zijn echter ook efficiënte SLMs (SLM = Small Language Model) beschikbaar.
  • AI-image generator: Uit een tekstinput wordt een beeld gegenereerd. Vaak kan ook uit een tekst en een invoerbeeld een nieuw beeld worden gemaakt. Of meerdere beelden kunnen stijlistisch met elkaar verbonden worden.
  • Tekst-na-spraak: Uit een invoertekst wordt door het AI-model een spraakuitvoeringsproduct gegenereerd
  • Spraak-naar-tekst: Uit een spraakinput produceert het AI-model een tekst (transcriptie)
  • Objectherkenning in beeld of video (segmentatie)
  • Geneeskundige prognosemodellen

In het volgende wordt voor de eenvoud alleen ingegaan op kunstmatige intelligentie-taalmodellen en kunstmatige intelligentie-afbeeldingsmodellen. Deze zijn zeer veelvoorkomende vertegenwoordigers in het domein van kunstmatige intelligentie.

Er zijn in wezen twee trainingsprocessen voor kunstmatige intelligentiemodellen:

  1. Pre-Training (Voortraining)
  2. Fine-Tuning (Finetunen)

Er zijn in de praktijk weinig verdere trainingsprocessen. Een fine-tuning van een al gefine-tuned model is nog denkbaar, wat uiteindelijk technisch analoog is aan het eerste fine-tuning.

Wat betekent pre-training en wat is de verschillende met fine-tuning? De volgende afbeeldingen beschouwen meerdere configuraties:

  1. Voortraining ("Creëren") van een enorm groot taalmodel, zoals ChatGPT-4
  2. Voortraining van een klein maar krachtig taalmodel (yes, dat is correct gelezen), zoals GPT-2
  3. Finetunen van het model uit 1.
  4. Finetunen van het model uit 2.

De gevallen 1 en 3 zijn meestal zaak van klokkende bedrijven. Het tweede geval komt zelden voor of als, dan wel voor grotere modellen dan GPT-2, zoals Llama3-8B. Maar ook het 8B-model wordt meestal door klokkende bedrijven gemaakt en aangeboden.

De vierde situatie is praktisch voor elk bedrijf haalbaar. Het focus van dit artikel zijn in het algemeen bedrijven die kunstmatige intelligentie willen invoeren, of organisaties die zulke bedrijven beheren.

Pre-Training

Voordienstelling betekent het leren van een AI-model. Het AI-model is er niet. Het wordt voorgedraaid (pre-training). Dan is het er.

Vaak wordt gesproken over "training". Training als begrip bestaat hier niet. Als iemand "training" zegt, bedoelt hij dan wel pre-training of fine-tuning, afhankelijk van de context die men heeft.

Als iemand het trainen van een Custom-GPT bedoelt, bedoelt hij fine-tuning. Als iemand in het algemeen spreekt over het trainen van een krachtig taalmodel, bedoelt hij pre-training (ongeveer: "Het trainen van ChatGPT-4 heeft miljoenen uren rekenkracht gekost, heb ik gelezen").

Pre-Training is het leren van een AI-model.

Het komt overeen met de opvoeding van een kind vanaf zijn geboorte door zijn ouders tot aan het schoolonderwijs.

In twijfelgevallen moet men ervan uitgaan dat met "training" het "pre-training" bedoeld is, omdat dit taalkundig dichter bij ligt dan "fine-tuning".

Voor taalmodellen zijn miljarden documenten met tekst nodig om een zeer goede kwaliteit te hebben. Een document is meestal een uittreksel van een website uit het internet.

Bekende bronnen van gegevens zijn:

  • Gemeenschappelijke kruip (CC) of C4 (Colossale Gezuiverde Gemeenschappelijke Kruip): ongeveer 700 GB aan gegevens, uitsluiting van veel websites uit het internet
  • De Stapel: 825 GB aan data, volgens sommigen open-source
  • Wikipedia (in meerdere talen)
  • Gegevens van RefinedWeb: Gedupliceerde en gezuiverde versie van Common Crawl
  • StarCoder Data: ca. 780 GB aan gegevens voor het genereren van programmeertaalcode. Bronnen zijn voornamelijk GitHub en Jupyter Notebooks (dat zijn programmerblaadjes, gelijk Excel, maar voor de eenvoudige opmaak van deelbaar programmeercode).

Afhankelijk van de grootte van een taalmodel duurt het trainen erg lang (veel maanden) of slechts enkele uren. Voor zeer grote AI-modellen zijn er miljoenen GPU-uren nodig voor het pre-training. GPU staat voor grafische kaart. In een high-end server zitten acht grafische kaarten, die elk €25.000 kosten.

Zeer kleine taalmodellen (GPT-2) werden nog maar een paar jaar geleden niet als zeer klein beschouwd en waren de standaard. Een GPT-2 taalmodel kan in enkele uren, dagen of weken getraind worden op eigen AI-server of AI-laptop (vortraining = pre-training). Hoe lang het pre-trainen precies duurt, hangt af van omvang van de trainingsgegevens.

Om een AI-taalmodel zeer prestatief te laten zijn, worden enkele terabytes (duizenden gigabytes) aan rauwe tekst nodig om als trainingsgegevens te dienen.

Voor een goede start zijn zelfs honderd gigabyte voldoende, die snel samengelezen kunnen worden. Hiervoor duurt het aanleren van het AI-model (pre-training) slechts een beperkt aantal uren.

Hoe precies het ook nog steeds afhangt van het aantal iteraties. Een iteratie is ongeveer gelijk aan een scholengroep. Hoe meer groepen iemand in de school volgt, hoe hoger de kans dat de intelligentie stijgt. Precies zoals bij mensen brengt het echter uiteindelijk niets meer op om nog een jaar langer naar school te gaan. De leerprestaties kunnen net als bij mensen door te lang pre-training zelfs vernietigd worden en zich weer verslechteren.

Een AI-model dat door pre-training is gegenereerd, dus aangelernt werd, wordt ook wel basismodel of Foundation Model

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Gegevensbescherming: Wat zijn persoonlijke gegevens?