Was ist der Unterschied zwischen Pre-Training und Fine-Tuning bei KI?

Pre-Training ist das Anlernen eines KI-Modells mit riesigen Datenmengen, ähnlich der Ausbildung eines Kindes. Fine-Tuning hingegen ist das Anpassen eines bereits vortrainierten Modells auf spezifische Aufgaben oder Datensätze, um dessen Leistung zu verbessern.

Welche Arten von Daten werden für das Pre-Training von KI Modellen benötigt?

Für das Pre-Training werden riesige Datenmengen benötigt, typischerweise aus Quellen wie Common Crawl, The Pile oder Wikipedia, um dem Modell ein breites Wissen zu vermitteln. Diese Daten können mehrere hundert Gigabyte oder sogar Terabyte umfassen.

Was ist Pre-Training bei KI-Modellen?

Pre-Training ist der Prozess, bei dem ein KI-Sprachmodell mit riesigen Mengen an Textdaten trainiert wird, um ein allgemeines Verständnis von Sprache und Wissen zu entwickeln. Dieser Prozess erfordert oft Terabyte an Daten und dauert Stunden.

Was ist Fine-Tuning von LLMs und wann wird es eingesetzt?

Fine-Tuning ist ein Feintraining, bei dem ein bereits vortrainiertes Modell auf eine spezifische Aufgabe oder Domäne zugeschnitten wird. Es erfordert deutlich weniger Daten als Pre-Training und wird eingesetzt, um die Leistung des Modells für eine bestimmte Downstream-Task zu verbessern, beispielsweise die Zusammenfassung von Texten.

Wie unterscheidet sich Pre-Training von Fine-Tuning bei Sprachmodellen?

Pre-Training zielt darauf ab, ein umfassendes, allgemeines Sprachmodell zu erstellen, während Fine-Tuning ein bestehendes Modell für eine spezifische Aufgabe optimiert. Pre-Training ist ressourcenintensiver und nutzt sehr große Datensätze, während Fine-Tuning effizienter ist und auf kleinere, aufgabenspezifische Datensätze angewendet wird.

Kann das Fine-Tuning von KI-Modellen die rechtlichen Probleme aus dem Basismodell beheben?

Nein, ein rechtswidriges Basismodell bleibt auch nach dem Feintraining weiterhin rechtswidrig. Neue Daten können die rechtliche Situation nicht verbessern, da das zugrunde liegende Problem im Basismodell bestehen bleibt.

Training von KI-Modellen: Was bedeutet das?

Kategorien: Künstliche Intelligenz und Datenschutz

KI-Sprachmodelle und KI-Bildgeneratoren sind die am weitesten verbreiteten KI-Modelltypen. Oft wird von Training, pre-training oder fine-tuning gesprochen. Was bedeuten diese Begriffe und was sind die Unterschiede? Welche Daten und vor allem wie viele werden für welchen Vorgang typischerweise benötigt?

Einleitung

Ein KI-Modell ist ein elektronisches Gehirn, das aus einem neuronalen Netzwerk besteht. Es kann befragt werden und gibt eine Antwort. Dies ist in einer Weise möglich, die sehr an das Gehirn des Menschen erinnert. Andere sind anderer Meinung. Jedenfalls basiert auch das menschliche Gehirn auf Statistik. Zur Frage, was Intelligenz ist (die Definition von "Künstliche Intelligenz" enthält zusätzlich zweimal das Attribut "künstlich" und ist ansonsten gleich):

Als Intelligenz wird ein System bezeichnet, das versucht, ein Problem auch bei unscharfer Vorgabe auf eine nicht konkret vorgegebene, lösungsorientierte Weise zu lösen und dazu bestehendes mit neuem Wissen kombiniert und Schlussfolgerungen zieht.
Quellenangabe: Klaus Meffert im Dr. DSGVO Blog

Beispiele für Arten von KI-Modellen sind:

KI-Sprachmodell, oft als LLM bezeichnet (LLM = Large Language Model). Mittlerweile gibt es aber auch leistungsfähige SLMs (SLM = Small Language Model).
KI-Bildgenerator: Aus einer Texteingabe wird ein Bild generiert. Oft kann auch aus einem Text und einem Eingabebild ein neues Bild erzeugt werden. Oder es können mehrere Bilder stilistisch miteinander verknüpft werden.
Text-To-Speech: Aus einem Eingabetext erzeugt das KI-Modell eine Sprachausgabe.
Speech-To-Text: Aus einer Spracheingabe erzeugt das KI-Modell einen Text (Transkription).
Objekterkennung in Bild oder Video (Segmentierung).
Medizinische Prognosemodelle, etwa zur Erkennung und Auswertung von Symptomen.

Im Folgenden wird der Einfachheit halber nur auf KI-Sprachmodelle und KI-Bildmodelle eingegangen. Diese sind sehr häufige Vertreter im KI-Umfeld.

Es gibt im Wesentlichen zwei Trainingsvorgänge für KI-Modelle:

Pre-Training
Fine-Tuning

Weitere Trainingsprozesse gibt es in der Praxis im Wesentlichen nicht. Denkbar ist noch ein Fine-Tuning eines bereits fine-getunten Modells, was letztendlich technisch analog zum ersten Fine-Tuning ist. Gelegentlich wird der Begriff des Post-Training verwendet, der allerdings auf dem Fine-Tuning aufbaut.

Was bedeutet Pre-Training und was ist der Unterschied zum Fine-Tuning? Die folgenden Darstellungen berücksichtigen mehrere Konstellationen:

Pre-Training ("Erschaffen") eines riesigen großen Sprachmodells, wie etwa ChatGPT-4
Pre-Training eines kleinen großen Sprachmodells (ja, richtig gelesen), wie etwa GPT-2. Früher (vor wenigen Jahren) war GPT-2 "größer", nach jetzigem Stand muss es als "kleines Modell" bezeichnet werden.
Fine-Tuning des Modells aus 1.
Fine-Tuning des Modells aus 2.

Die Fälle 1 und 3 sind üblicherweise Sache von KI-Konzernen. Der 2. Fall kommt eher selten vor oder wenn, dann für etwas größere Modelle als GPT-2, wie Llama3-8B. Aber auch das 8B-Modell wird üblicherweise von KI-Konzernen erschaffen und bereitgestellt.

Der 4. Fall ist praktisch von jedem Unternehmen realisierbar. Fokus dieses Beitrags sind generell Unternehmen, die KI bei sich einführen wollen, oder Organisationen, die solche Unternehmen betreuen.

Pre-Training

Pre-Training bedeutet Anlernen eines KI-Modells. Das KI Modell ist nicht da. Es wird vortrainiert (pre-training). Dann ist es da.

Oft wird von "Training" gesprochen. Training gibt es als Begriff in diesem Kontext nicht. Wenn jemand "Training" sagt, meint er entweder Pre-Training oder Fine-Tuning, je nach Kontext, der gemeint ist.

Wenn jemand vom Training eines Custom-GPT spricht, meint er das Fine-Tuning. Wenn jemand allgemein vom Training eines mächtigen Sprachmodells spricht, meint er das Pre-Training (etwa: "Das Training von ChatGPT-4 hat viele Millionen Stunden Rechenzeit gekostet, habe ich gelesen").

Pre-Training ist das Anlernen eines KI-Modells.

Es entspricht der Ausbildung/Erziehung eines Kindes von Geburt an durch seine Eltern, bis hin zur Schulausbildung.

Ein "Musterschüler" entspricht einem Foundation Model (Grundmodell = Vorbild).

Im Zweifel könnte man (fachlich) a priori davon ausgehen, dass mit "Training" das "Pre-Training" gemeint ist, weil dies sprachlich näher liegt als "Fine-Tuning". Allerdings ist das "Pre-Training" ein seltener Prozess, das "Fine-Tuning" aber ein häufiger.

Für Sprachmodelle werden vielen Milliarden Dokumente mit Text benötigt, damit das Sprachmodell eine sehr gute Qualität haben kann. Ein Dokument ist üblicherweise ein Auszug einer Webseite aus dem Internet.

Bekannte Datenquellen sind:

Common Crawl (CC) oder C4 (Colossal Cleaned Common Crawl): ca. 700 GB an Daten, Abzug vieler Webseiten aus dem Internet
The Pile: 825 GB an Daten, angeblich Open-Source
Wikipedia (in mehreren Sprachen)
RefinedWeb: Deduplizierte und bereinigte Version von Common Crawl
StarCoder Data: ca. 780 GB an Daten für die Erzeugung von Programmcode. Quellen sind insbesondere GitHub und Jupyter Notebooks (das sind Programmierblätter, ähnlich Excel, aber für die leichte Erstellung von teilbarem Programmcode).

Je nach Größe eines Sprachmodells dauert das Training extrem lang (viele Monate) oder nur ein paar Stunden. Für sehr große KI-Modelle wurden jeweils viele Millionen an GPU-Stunden für das Pre-Training verbraucht. GPU bedeutet Grafikkarte. In einem High-End KI-Server stecken 8 Grafikkarten zum Stückpreis von gerne 25.000 Euro.

Sehr kleine Sprachmodelle (GPT-2) wurden noch vor wenigen Jahren nicht als sehr klein angesehen wurden und waren der Goldstandard. Ein GPT-2 Sprachmodell kann man in wenigen Stunden, Tagen oder Wochen auf einem eigenen KI-Server oder KI-Laptop trainieren (vortrainieren = pre-training). Wie lange das Pre-Training genau dauert, hängt vom Umfang der Trainingsdaten ab.

Soll ein KI-Sprachmodell sehr leistungsfähig sein, werden einige Terabyte (=tausende Gigabyte) an Rohtexten als Trainingsdaten benötigt.

Für einen ersten guten Start reichen auch hundert Gigabyte, die schnell zusammengelesen sind. Hierfür dauert das Anlernen des KI-Modells (Pre-Training) nur eine überschaubare Anzahl an Stunden.

Wie lange genau hängt auch noch von der Anzahl der Iterationen ab. Eine Iteration entspricht in etwa einer Schulklasse. Umso mehr Klassen jemand in der Schule besucht, umso höher die Chance, dass die Intelligenz steigt. Genau wie beim Menschen bringt es aber irgendwann nichts mehr, noch ein Jahr länger zur Schule zu gehen. Der Lernerfolg kann wie beim Menschen durch zu langes pre-training sogar zunichte gemacht werden und sich wieder verschlechtern.

Ein KI-Modell, welches durch Pre-Training erzeugt, also angelernt wurde, heißt auch Grundmodell oder Foundation Model (FM). Ein Grundmodell kann für allgemeine Aufgaben herangezogen werden. Je größer das Grundmodell ist, desto besser kann es auch spezielle Aufgaben lösen. Die Größe eines Modells drückt sich in der Anzahl seiner Neuronenverbindungen aus. ChatGPT kann aufgrund seiner schieren Größe daher auch sehr gut rechnen (jedenfalls besser als die meisten Menschen auf dieser Erde, die Fehler mit eingerechnet, die ChatGPT und Mensch jeweils machen).

Fine-Tuning

Fine-Tuning kann auch als Feintraining bezeichnet werden.

Voraussetzung für das Fine-Tuning ist ein vorhandenes KI-Sprachmodell. Das KI-Modell ist vorhanden, nachdem es vortrainiert (pre-trained) wurde. Nur ein pre-trained KI-Modell kann dem Fine-Tuning unterzogen werden.

Fine-Tuning ist vergleichbar mit einem Studium, das man an die Schulausbildung dranhängt.

Ohne Schulausbildung ist ein Studium nicht möglich bzw. wohl auch nicht sinnvoll.

Ein Feintraining ist dann sinnvoll, wenn ein Modell für eine bestimmte Aufgabe ausgebildet werden soll. Mit dem Fine-Tuning wird das Sprachmodell also weitergebildet.

Möglicherweise kann ein Sprachmodell von Hause aus Texte nicht gut zusammenfassen. Das könnte auch nur fallweise so sein, beispielsweise für eine Arztpraxis, die ein ganz anderes Vokabular in Arztbriefen verwendet, als es in den Trainingsdaten des KI-Modells verankert ist.

Das Fine-Tuning verbessert also die Fähigkeiten eines vortrainierten KI-Modells bezüglich einer konkreten Aufgabenstellung. Diese Aufgabenstellung wird auch als Downstream-Task bezeichnet.

Je nach Aufgabenstellung und Grundeignung eines KI-Modells sowie der verwendeten mathematischen Trainingsmethode sind unterschiedlich viele Daten nötig, um gute Erfolge zu erzielen.

Für die Klassifikation von Texten reichen möglicherweise hundert Beispiele aus, um das Fine-Tuning erfolgreich durchzuführen. Sollen ein KI-Bildgenerator den Stil eines Künstlers aufgreifen lernen, reichen durchaus bereits 10 Beispiele. Nach dem Feintraining erzeugt das KI-Modell dann Bilder, die vom Urheber der 10 Beispielbilder hätten gemalt sein können.

Insgesamt sind erheblich weniger Trainingsdaten für das Fine-Tuning erforderlich und auch sinnvoll, ganz im Gegensatz zum Pre-Training. Man kann davon ausgehen, dass die Anzahl der Datensätze für das Fine-Tuning die 10.000 Datensätze sehr oft nicht übersteigt. Sehr oft sind erheblich weniger als diese 10.000 Beispiele sinnvoll und erforderlich. Es kommt eben auf den Fall an. Der Vollständigkeit halber sei ein Sonderfall erwähnt: Ein Grundmodell wird feintraininert mit dem Ziel, dass daraus eine faktisch verbesserte Version des Grundmodells entsteht. Dies passierte beispielsweise mit Llama3. Der feintrainierte Ableger bekam 64000 Datensätze an Trainingsdaten spendiert. Diesen Vorgang führen normalerweise andere aus. Man kann diese verbesserten Modelle dann nutzen, als wären sie von Anfang an dagewesen (pre-training).

Das Fine-Tuning findet in der Praxis in Unternehmen für kleine Sprachmodelle statt. Klein bedeutet nicht, dass es nicht ein "großes Sprachmodell" LLM wäre, sondern bezeichnet die Relation zwischen "riesig" (ChatGPT) und "sehr gutes LLM" (wie Llama3-8B). ChatGPT hat wohl über 1000 Milliarden Neuronenverbindungen, wohingegen ein 8B-Modell "nur" 8 Milliarden hat. Das "B" steht für "Billion" und bedeutet im Englischen "Milliarde".

Wann liegt kein Training vor?

Nicht jeder Datentransfer an ein KI-Modell ist ein Training. Weder Pre-Training noch Fine-Tuning liegt in folgenden Fällen vor:

Prompting, also Datenübergabe durch Befragen an das KI-Modell.
Aufbereiten der Frage an die KI, bevor sie der KI präsentiert wird. Dies geschieht typischerweise durch konventionelle Logik und in automatisierter Weise. Beispiele: Erkennen von Schreibfehlern, erste semantische Weiche.
RAG (Retrieval-Augmented Generation), also das Anfrage-abhängige Zuspielen von Daten aus vorliegenden Dokumenten an das KI-Sprachmodell, insbesondere um die Antwortqualität zu erhöhen und Halluzinationen zu reduzieren. Populärer Sonderfall des eben genannten Aufbereitens.
Nachbearbeiten der KI-Antwort, bevor Sie dem Nutzer präsentiert wird. Dies ist in vielen Fällen sinnvoll und geschieht oft durch konventionelle (sehr zuverlässige und transparente) Logik in automatisierter Form durch ein Hilfsprogramm.
Abspeichern der KI-Antwort, etwa um sie später auszuwerten oder für das KI-Training zu nutzen. Hier ist die Rechtmäßigkeit der Speicherung (Zwecke, Dauer) zu prüfen.

Pre-Training versus Fine-Tuning

Die folgende Übersicht stellt die Unterschiede zwischen Pre-Training und Fine-Tuning kurz und knapp dar. In der Übersicht sind auch die Merkmale Datenschutz und synthetische Daten enthalten. Synthetische Daten sind künstlich generierte Daten, um den Umfang von Trainingsdaten zu vergrößern. Diese Daten werden durch KI-Modelle gewonnen!

Merkmal	Pre-Training	Fine-Tuning
Zweck	Erschaffen eines allgemeinen KI-Modells	Verbessern eines bestehenden KI-Modells für eine bestimmte Aufgabenstellung
Analogie	Erziehung eines Kindes durch seine Eltern + Schulausbildung	Studium an der Uni oder weitere Ausbildung nach der Schulzeit
Anzahl Trainingsdaten	So viele wie möglich, oft viele Milliarden Datensätze	Oft reichen 10 Beispiele, oft 100. Sehr selten werden es 10.000 oder mehr Beispiele sein.
Rechenzeit	Für moderne Modelle viele Millionen Stunden	sehr wenige Stunden bis Wochen
Datenschutz	Kann praktisch nicht eingehalten werden	Kann grundsätzlich (nur für die Feintrainingsdaten) eingehalten werden
Anonymisierung möglich?	Praktisch nicht	Ja, grundsätzlich sehr gut
Urheberrecht einhaltbar?	Praktisch nicht	Ja, grundsätzlich sehr gut
Synthetische Daten sinnvoll?	Nur zur Not oder für Verbesserungen innerhalb einer Modellschiene	Ja, zur Multiplikation von Trainingsdaten und zur Erhöhung der Varianz dieser

Unterschiede Pre-Training und Fine-Tuning von KI-Modellen.

Die Anonymisierung von Trainingsdaten für das Fine-Tuning unterlegt den gleichen Bedingungen wie der Datenschutz: Alle Daten, die schon beim Pre-Training ins Basismodell eingeflossen sind, können nachträglich quasi nicht mehr anonymisiert werden. Noch schlechter sieht es bei urheberrechtlich geschützten Daten aus. Denn Daten sieht man erst einmal nicht an, ob sie das schützenswerte Werk eines anderen sind. Beim Datenschutz kann man immerhin oft feststellen, ob Personen betroffen sind.

Fazit

Aus Sicht der Daten ist das Fine-Tuning um Größenordnungen besser beherrschbar als das Pre-Training. Dies bezieht sich allerdings nur auf die Daten, die im Feintraining einfließen. Die initialen Trainingsdaten für das Pre-Training sind ja bereits im KI-Modell eingespeichert, und zwar abrufbar.

Das Pre-Training ist eine technische Herausforderung, Zwar läuft es aus Software-Sicht nahezu gleich wie das Fine-Tuning ab. Jedoch werden enorme Rechenkapazitäten und extrem viele Trainingsdaten benötigt.

Ganz anders das Fine-Tuning. Es kommt mit erschwinglicher Consumer-Grade Hardware aus und kommt sehr oft mit wenigen oder sehr wenigen Trainingsdaten aus.

Das Feintraining erbt also das "Gehirn" mit seinen eingespeicherten initialen Trainingsdaten und fügt wenige neue Daten hinzu. Diese wenigen neuen Daten können aus Sicht der DSGVO sehr gut beherrscht werden. Dennoch bleibt ein rechtswidriges Basismodell, welches feintrainiert wurde, ein rechtswidriges feintrainiertes Modell. Die rechtswidrigen Daten aus dem Basismodell färben also auf alle Folgeversionen des Modells ab. Etwas Rechtswidriges kann nicht durch Hinzufügen von etwas Rechtskonformem rechtskonform werden.

Synthetische Daten verbessern die Qualität oder den Datenschutz in einem Basismodell nicht wirklich:

Auch synthetische Daten können einen Bezug zu einer Person oder einem urheberrechtlich geschützten Werk enthalten. Kein Wunder, denn ihr Vorbild sind ja Echtdaten.
Da synthetische Daten durch Veränderung von Echtdaten gewonnen werden, kann es passieren, dass Falschaussagen über Personen zustande kommen. Dies wäre eine Verschlechterung der rechtlichen Situation im KI-Sprachmodell.

Generell kann man sagen: KI-Modelle sind nur dann wettbewerbsfähig, wenn sie möglichst viele und gute Trainingsdaten präsentiert bekamen. Somit sind eigentlich alle verfügbaren wettbewerbsfähigen Closed und Open Source KI Sprachmodelle formal rechtswidrig. Übrigens ist auch Mistral mit Daten aus dem "open web" trainiert, wie Mistral selbst sagt.

Die andauernde akzeptierte Nutzung von etwas formal Rechtswidrigem wird nach der Logik der Rechtswissenschaft bei KI wahrscheinlich dazu führen, dass sie als erlaubt angesehen wird oder zumindest deren "rechtswidrige Nutzung" geduldet werden wird.

Ein anderes Problem ist die Nutzung von Cloud-Diensten wie ChatGPT oder Azure. Denn dabei werden oft Daten Dritter oder eigene Geschäftsgeheimnisse an amerikanische Firmen und deren nationale Geheimdienste geschickt.

Wem das Argument der Datensicherheit nicht reicht, dem sei nahegelegt, seine Anwendungsfälle konkret zu benennen und dafür eine optimierte KI einzusetzen. Diese Art der KI wird hier Offline-KI genannt. Sie läuft völlif autark, entweder auf einem Miet-Server oder einem unternehmenseigenen Server und liefert oft bessere Ergebnisse als Allgemeinintelligenzen wie ChatGPT.

Kernaussagen dieses Beitrags

KI-Modelle werden entweder durch Pre-Training (Grundausbildung mit viel Daten) oder Fine-Tuning (Anpassung eines bereits trainierten Modells an spezifische Aufgaben) geschult.

Große KI-Sprachmodelle benötigen für ihr Pre-Training viele Milliarden Textdokumente, die oft aus dem Internet stammen. Das Pre-Training dauert in der Regel Monate.

KI-Modelle werden zuerst mit viel Daten (Pre-Training) vorgebildet, was etwa so lange dauert wie ein Schulabschluss. Danach kann das Modell für spezifische Aufgaben angepasst (Fine-Tuning) werden, ähnlich einer Ausbildung nach der Schule. Für das Fine-Tuning braucht man viel weniger Daten als beim Pre-Training.

Das Feintraining von KI-Modellen ist einfacher zu kontrollieren als das Pre-Training, insbesondere was Datenschutz und Urheberrechte angeht. Das bedeutet: Ein rechtswidriges Basismodell bleibt auch nach dem Feintraining rechtswidrig.

Die Nutzung von KI wird rechtlich akzeptiert, wenn sie lange genug anerkannt wird.

Eine Alternative sind Offline-KI-Systeme, die bessere Ergebnisse liefern können als ChatGPT.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

Erstberatung inkl. Machbarkeitsaussagen
Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de