KI-Sprachmodelle und KI-Bildgeneratoren sind die am weitesten verbreiteten KI-Modelltypen. Oft wird von Training, pre-training oder fine-tuning gesprochen. Was bedeuten diese Begriffe und was sind die Unterschiede? Welche Daten und vor allem wie viele werden für welchen Vorgang typischerweise benötigt?
Einleitung
Ein KI-Modell ist ein elektronisches Gehirn, das aus einem neuronalen Netzwerk besteht. Es kann befragt werden und gibt eine Antwort. Dies ist in einer Weise möglich, die sehr an das Gehirn des Menschen erinnert. Andere sind anderer Meinung. Jedenfalls basiert auch das menschliche Gehirn auf Statistik. Zur Frage, was Intelligenz ist (die Definition von "Künstliche Intelligenz" enthält zusätzlich zweimal das Attribut "künstlich" und ist ansonsten gleich):
Als Intelligenz wird ein System bezeichnet, das versucht, ein Problem auch bei unscharfer Vorgabe auf eine nicht konkret vorgegebene, lösungsorientierte Weise zu lösen und dazu bestehendes mit neuem Wissen kombiniert und Schlussfolgerungen zieht.
Quellenangabe: Klaus Meffert im Dr. DSGVO Blog
Beispiele für Arten von KI-Modellen sind:
- KI-Sprachmodell, oft als LLM bezeichnet (LLM = Large Language Model). Mittlerweile gibt es aber auch leistungsfähige SLMs (SLM = Small Language Model).
- KI-Bildgenerator: Aus einer Texteingabe wird ein Bild generiert. Oft kann auch aus einem Text und einem Eingabebild ein neues Bild erzeugt werden. Oder es können mehrere Bilder stilistisch miteinander verknüpft werden.
- Text-To-Speech: Aus einem Eingabetext erzeugt das KI-Modell eine Sprachausgabe.
- Speech-To-Text: Aus einer Spracheingabe erzeugt das KI-Modell einen Text (Transkription).
- Objekterkennung in Bild oder Video (Segmentierung).
- Medizinische Prognosemodelle, etwa zur Erkennung und Auswertung von Symptomen.
Im Folgenden wird der Einfachheit halber nur auf KI-Sprachmodelle und KI-Bildmodelle eingegangen. Diese sind sehr häufige Vertreter im KI-Umfeld.
Es gibt im Wesentlichen zwei Trainingsvorgänge für KI-Modelle:
- Pre-Training
- Fine-Tuning
Weitere Trainingsprozesse gibt es in der Praxis im Wesentlichen nicht. Denkbar ist noch ein Fine-Tuning eines bereits fine-getunten Modells, was letztendlich technisch analog zum ersten Fine-Tuning ist. Gelegentlich wird der Begriff des Post-Training verwendet, der allerdings auf dem Fine-Tuning aufbaut.
Was bedeutet Pre-Training und was ist der Unterschied zum Fine-Tuning? Die folgenden Darstellungen berücksichtigen mehrere Konstellationen:
- Pre-Training ("Erschaffen") eines riesigen großen Sprachmodells, wie etwa ChatGPT-4
- Pre-Training eines kleinen großen Sprachmodells (ja, richtig gelesen), wie etwa GPT-2. Früher (vor wenigen Jahren) war GPT-2 "größer", nach jetzigem Stand muss es als "kleines Modell" bezeichnet werden.
- Fine-Tuning des Modells aus 1.
- Fine-Tuning des Modells aus 2.
Die Fälle 1 und 3 sind üblicherweise Sache von KI-Konzernen. Der 2. Fall kommt eher selten vor oder wenn, dann für etwas größere Modelle als GPT-2, wie Llama3-8B. Aber auch das 8B-Modell wird üblicherweise von KI-Konzernen erschaffen und bereitgestellt.
Der 4. Fall ist praktisch von jedem Unternehmen realisierbar. Fokus dieses Beitrags sind generell Unternehmen, die KI bei sich einführen wollen, oder Organisationen, die solche Unternehmen betreuen.
Pre-Training
Pre-Training bedeutet Anlernen eines KI-Modells. Das KI Modell ist nicht da. Es wird vortrainiert (pre-training). Dann ist es da.
Oft wird von "Training" gesprochen. Training gibt es als Begriff in diesem Kontext nicht. Wenn jemand "Training" sagt, meint er entweder Pre-Training oder Fine-Tuning, je nach Kontext, der gemeint ist.
Wenn jemand vom Training eines Custom-GPT spricht, meint er das Fine-Tuning. Wenn jemand allgemein vom Training eines mächtigen Sprachmodells spricht, meint er das Pre-Training (etwa: "Das Training von ChatGPT-4 hat viele Millionen Stunden Rechenzeit gekostet, habe ich gelesen").
Pre-Training ist das Anlernen eines KI-Modells.
Es entspricht der Ausbildung/Erziehung eines Kindes von Geburt an durch seine Eltern, bis hin zur Schulausbildung.
Ein "Musterschüler" entspricht einem Foundation Model (Grundmodell = Vorbild).
Im Zweifel könnte man (fachlich) a priori davon ausgehen, dass mit "Training" das "Pre-Training" gemeint ist, weil dies sprachlich näher liegt als "Fine-Tuning". Allerdings ist das "Pre-Training" ein seltener Prozess, das "Fine-Tuning" aber ein häufiger.
Für Sprachmodelle werden vielen Milliarden Dokumente mit Text benötigt, damit das Sprachmodell eine sehr gute Qualität haben kann. Ein Dokument ist üblicherweise ein Auszug einer Webseite aus dem Internet.
Bekannte Datenquellen sind:
- Common Crawl (CC) oder C4 (Colossal Cleaned Common Crawl): ca. 700 GB an Daten, Abzug vieler Webseiten aus dem Internet
- The Pile: 825 GB an Daten, angeblich Open-Source
- Wikipedia (in mehreren Sprachen)
- RefinedWeb: Deduplizierte und bereinigte Version von Common Crawl
- StarCoder Data: ca. 780 GB an Daten für die Erzeugung von Programmcode. Quellen sind insbesondere GitHub und Jupyter Notebooks (das sind Programmierblätter, ähnlich Excel, aber für die leichte Erstellung von teilbarem Programmcode).
Je nach Größe eines Sprachmodells dauert das Training extrem lang (viele Monate) oder nur ein paar Stunden. Für sehr große KI-Modelle wurden jeweils viele Millionen an GPU-Stunden für das Pre-Training verbraucht. GPU bedeutet Grafikkarte. In einem High-End KI-Server stecken 8 Grafikkarten zum Stückpreis von gerne 25.000 Euro.
Sehr kleine Sprachmodelle (GPT-2) wurden noch vor wenigen Jahren nicht als sehr klein angesehen wurden und waren der Goldstandard. Ein GPT-2 Sprachmodell kann man in wenigen Stunden, Tagen oder Wochen auf einem eigenen KI-Server oder KI-Laptop trainieren (vortrainieren = pre-training). Wie lange das Pre-Training genau dauert, hängt vom Umfang der Trainingsdaten ab.
Soll ein KI-Sprachmodell sehr leistungsfähig sein, werden einige Terabyte (=tausende Gigabyte) an Rohtexten als Trainingsdaten benötigt.
Für einen ersten guten Start reichen auch hundert Gigabyte, die schnell zusammengelesen sind. Hierfür dauert das Anlernen des KI-Modells (Pre-Training) nur eine überschaubare Anzahl an Stunden.
Wie lange genau hängt auch noch von der Anzahl der Iterationen ab. Eine Iteration entspricht in etwa einer Schulklasse. Umso mehr Klassen jemand in der Schule besucht, umso höher die Chance, dass die Intelligenz steigt. Genau wie beim Menschen bringt es aber irgendwann nichts mehr, noch ein Jahr länger zur Schule zu gehen. Der Lernerfolg kann wie beim Menschen durch zu langes pre-training sogar zunichte gemacht werden und sich wieder verschlechtern.
Ein KI-Modell, welches durch Pre-Training erzeugt, also angelernt wurde, heißt auch Grundmodell oder Foundation Model (FM). Ein Grundmodell kann für allgemeine Aufgaben herangezogen werden. Je größer das Grundmodell ist, desto besser kann es auch spezielle Aufgaben lösen. Die Größe eines Modells drückt sich in der Anzahl seiner Neuronenverbindungen aus. ChatGPT kann aufgrund seiner schieren Größe daher auch sehr gut rechnen (jedenfalls besser als die meisten Menschen auf dieser Erde, die Fehler mit eingerechnet, die ChatGPT und Mensch jeweils machen).
Fine-Tuning
Fine-Tuning kann auch als Feintraining bezeichnet werden.
Voraussetzung für das Fine-Tuning ist ein vorhandenes KI-Sprachmodell. Das KI-Modell ist vorhanden, nachdem es vortrainiert (pre-trained) wurde. Nur ein pre-trained KI-Modell kann dem Fine-Tuning unterzogen werden.
Fine-Tuning ist vergleichbar mit einem Studium, das man an die Schulausbildung dranhängt.
Ohne Schulausbildung ist ein Studium nicht möglich bzw. wohl auch nicht sinnvoll.
Ein Feintraining ist dann sinnvoll, wenn ein Modell für eine bestimmte Aufgabe ausgebildet werden soll. Mit dem Fine-Tuning wird das Sprachmodell also weitergebildet.
Möglicherweise kann ein Sprachmodell von Hause aus Texte nicht gut zusammenfassen. Das könnte auch nur fallweise so sein, beispielsweise für eine Arztpraxis, die ein ganz anderes Vokabular in Arztbriefen verwendet, als es in den Trainingsdaten des KI-Modells verankert ist.
Das Fine-Tuning verbessert also die Fähigkeiten eines vortrainierten KI-Modells bezüglich einer konkreten Aufgabenstellung. Diese Aufgabenstellung wird auch als Downstream-Task bezeichnet.
Je nach Aufgabenstellung und Grundeignung eines KI-Modells sowie der verwendeten mathematischen Trainingsmethode sind unterschiedlich viele Daten nötig, um gute Erfolge zu erzielen.
Für die Klassifikation von Texten reichen möglicherweise hundert Beispiele aus, um das Fine-Tuning erfolgreich durchzuführen. Sollen ein KI-Bildgenerator den Stil eines Künstlers aufgreifen lernen, reichen durchaus bereits 10 Beispiele. Nach dem Feintraining erzeugt das KI-Modell dann Bilder, die vom Urheber der 10 Beispielbilder hätten gemalt sein können.
Insgesamt sind erheblich weniger Trainingsdaten für das Fine-Tuning erforderlich und auch sinnvoll, ganz im Gegensatz zum Pre-Training. Man kann davon ausgehen, dass die Anzahl der Datensätze für das Fine-Tuning die 10.000 Datensätze sehr oft nicht übersteigt. Sehr oft sind erheblich weniger als diese 10.000 Beispiele sinnvoll und erforderlich. Es kommt eben auf den Fall an. Der Vollständigkeit halber sei ein Sonderfall erwähnt: Ein Grundmodell wird feintraininert mit dem Ziel, dass daraus eine faktisch verbesserte Version des Grundmodells entsteht. Dies passierte beispielsweise mit Llama3. Der feintrainierte Ableger bekam 64000 Datensätze an Trainingsdaten spendiert. Diesen Vorgang führen normalerweise andere aus. Man kann diese verbesserten Modelle dann nutzen, als wären sie von Anfang an dagewesen (pre-training).
Das Fine-Tuning findet in der Praxis in Unternehmen für kleine Sprachmodelle statt. Klein bedeutet nicht, dass es nicht ein "großes Sprachmodell" LLM wäre, sondern bezeichnet die Relation zwischen "riesig" (ChatGPT) und "sehr gutes LLM" (wie Llama3-8B). ChatGPT hat wohl über 1000 Milliarden Neuronenverbindungen, wohingegen ein 8B-Modell "nur" 8 Milliarden hat. Das "B" steht für "Billion" und bedeutet im Englischen "Milliarde".
Wann liegt kein Training vor?
Nicht jeder Datentransfer an ein KI-Modell ist ein Training. Weder Pre-Training noch Fine-Tuning liegt in folgenden Fällen vor:
- Prompting, also Datenübergabe durch Befragen an das KI-Modell.
- Aufbereiten der Frage an die KI, bevor sie der KI präsentiert wird. Dies geschieht typischerweise durch konventionelle Logik und in automatisierter Weise. Beispiele: Erkennen von Schreibfehlern, erste semantische Weiche.
- RAG (Retrieval-Augmented Generation), also das Anfrage-abhängige Zuspielen von Daten aus vorliegenden Dokumenten an das KI-Sprachmodell, insbesondere um die Antwortqualität zu erhöhen und Halluzinationen zu reduzieren. Populärer Sonderfall des eben genannten Aufbereitens.
- Nachbearbeiten der KI-Antwort, bevor Sie dem Nutzer präsentiert wird. Dies ist in vielen Fällen sinnvoll und geschieht oft durch konventionelle (sehr zuverlässige und transparente) Logik in automatisierter Form durch ein Hilfsprogramm.
- Abspeichern der KI-Antwort
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 