Les modèles de langage AI et les générateurs d'image AI sont les types de modèles AI les plus répandus. On parle souvent de formation, de pré-formation ou de fine-tuning. Quels sont ces termes et quels sont les différences ? Quelles données et surtout combien sont typiquement nécessaires pour chaque opération ?
Introduction
Un modèle de IA est un cerveau électronique composé d'un réseau neuronal. Il peut être interrogé et répondre. C'est possible d'une manière qui rappelle beaucoup le cerveau humain. D'autres ont une autre opinion. En tout cas, le cerveau humain repose aussi sur des statistiques. À la question de savoir ce qu'est l'intelligence, voir l'article lié.
Exemples d'espèces de modèles d'intelligence artificielle sont:
- Modèle de langage AI, souvent désigné par LLM (LLM = Large Language Model). Il existe cependant maintenant des SLM (SLM = Small Language Model) performants.
- Générateur d'image: à partir d'une saisie de texte, un image est générée. On peut souvent également créer une nouvelle image à partir d'un texte et d'une image d'entrée ou encore relier plusieurs images stylistiquement entre elles.
- La synthèse vocale: à partir d'un texte d'entrée, le modèle de l'intelligence artificielle produit une sortie vocale
- La parole à texte: d'une entrée de langue, le modèle de l'intelligence artificielle génère un texte (transcription)
- Reconnaissance d'objets dans une image ou un vidéo (segmentation)
- Modèles de prédiction médicaux
Dans la suite, on se limitera pour simplifier aux modèles de langage et aux modèles d'image de l'intelligence artificielle, qui sont des représentants très courants dans ce domaine.
Il existe en substance deux processus d'entraînement pour les modèles de l'intelligence artificielle:
- Pre-Training (Pré-formation)
- Fine-Tuning (Affinage)
D'autres processus de formation ne se produisent pratiquement pas en pratique. Il est encore possible d'effectuer un fine-tuning d'un modèle déjà fine-tuné, ce qui est finalement techniquement analogue au premier fine-tuning.
Qu'est-ce que le pré-entraînement et en quoi diffère-t-il du fine-tuning ? Les représentations suivantes prennent en compte plusieurs configurations:
- Pré-formation ("Création") d'un grand modèle de langage, comme par exemple ChatGPT-4
- Pré-formation d'un petit grand modèle de langage (oui, lisez bien cela), comme par exemple GPT-2
- Affinement du modèle issu de 1.
- Affinement du modèle à partir de 2.
Les cas 1 et 3 sont généralement affaire de sociétés de l'intelligence artificielle. Le deuxième cas est rarement rencontré ou, si c'est le cas, pour des modèles plus grands que GPT-2, comme Llama3-8B. Mais même ce modèle 8B est généralement créé et fourni par les sociétés de l'intelligence artificielle.
Le quatrième cas est pratiquement réalisable par tout entreprise. L'objet de cet article sont généralement des entreprises qui veulent introduire l'intelligence artificielle, ou des organisations qui gèrent ces entreprises.
Pre-Training
L'apprentissage préalable signifie l'entraînement d'un modèle de IA. Le modèle de IA n'est pas là. Il est entraîné à l'avance (pre-training). Ensuite, il est là.
On parle souvent de "formation". Il n'y a pas de terme "formation" dans ce contexte. Lorsqu'on dit "formation", on entend soit le pré-entrainement, soit l'affinement, en fonction du contexte visé.
Lorsqu'on parle d'un entraînement de Custom-GPT, on entend parler du fine-tuning. Lorsqu'on parle en général d'un entraînement d'un modèle de langage puissant, on entend parler du pré-entraînement (environ: "L'entraînement de ChatGPT-4 a coûté des millions d'heures de calcul, j'ai lu").
L'apprentissage préalable est l'entraînement d'un modèle de IA.
Cela correspond à l'éducation d'un enfant de naissance par ses parents jusqu'à la scolarité.
Dans le doute, il faut supposer que par «formation», on entend «pré-formation» car cela est linguistiquement plus proche que «fine-tuning».
Pour les modèles de langage, il faut avoir accès à des milliards de documents contenant du texte afin que le modèle de langage ait une très bonne qualité. Un document est généralement un extrait d'une page web du Internet.
Les sources de données connues sont:
- Common Crawl (CC) ou C4 (Colossal Cleaned Common Crawl): environ 700 Go de données, abstraction de nombreuses pages web du web
- Le Pile: 825 Go de données, prétendument Open-Source
- Wikipédia (en plusieurs langues)
- RefinedWeb: Version dédupliquée et nettoyée de Common Crawl
- Données StarCoder: environ 780 Go d'informations et de données pour la génération du code informatique. Les sources sont notamment GitHub et les Notebooks Jupyter (ce sont des feuilles de calcul, similaires à Excel, mais conçues pour la création facile de code informatique partageable).
Selon la taille d'un modèle de langage, l'entraînement peut prendre des mois ou seulement quelques heures. Pour les grands modèles de IA, plusieurs millions d'heures de GPU ont été consacrées à l'entraînement préalable. La GPU signifie carte graphique. Dans un serveur de haute performance pour l'intelligence artificielle, huit cartes graphiques coûtent 25 000 euros pièces.
Des modèles de langage très petits (GPT-2) n'étaient pas considérés comme tels il y a encore quelques années et étaient la norme. Un modèle GPT-2 peut être entraîné en quelques heures, jours ou semaines sur un serveur AI personnel ou un ordinateur portable AI (pré-entraînement = pré-entraînement). La durée du pré-entraînement dépend de l'ampleur des données d'entraînement.
Pour que un modèle de langage de l'intelligence artificielle soit très performant, il faudra quelques terabytes (milliers de gigaoctets) d'archives brutes en tant que données d'apprentissage.
Pour un bon démarrage, cent gigaoctets suffisent et sont rapidement lus. L'apprentissage du modèle d'intelligence artificielle (pré-formation) ne prend alors qu'une petite quantité de temps en heures.
La durée exacte dépend également du nombre d'itérations. Une itération correspond à environ une classe scolaire. Plus de classes que quelqu'un a suivies à l'école, plus grande est la chance qu'intelligence augmente. Exactement comme pour les humains, cela ne rapporte rien de plus en allant encore un an à l'école. Le rendement d'apprentissage peut être détruit par une pré-formation trop longue, exactement comme pour les humains, et se détériore à nouveau.
Un modèle de IA créé par pré-entraînement, donc appris, s'appelle également modèle de base ou Foundation Model (FM). Un modèle de base peut être utilisé pour des tâches générales. Plus un modèle est grand, mieux il résout les tâches spécifiques. La taille d'un modèle se mesure par le nombre de ses connexions neuronales. ChatGPT peut résoudre des calculs très bien (du moins mieux que la plupart des humains sur cette Terre, en comptant les erreurs faites par chacun, soit par ChatGPT, soit par l'humain).
Fine-Tuning
L'entraînement à la fine-tune peut également être appelé entraînement fin.
La condition pour le fine-tuning est un modèle de langage d'intelligence artificielle existant. Le modèle d'intelligence artificielle existe après avoir été pré-entraîné (pre-trained). Seul un modèle d'intelligence artificielle pré-entraîné peut être soumis au fine-tuning.
L'entraînement fin est comparable à un cursus qu'on ajoute à la scolarité.
Sans instruction scolaire, un étude n'est pas possible ou même peu sensée.
Un entraînement fin est alors pertinent lorsqu'un modèle doit être formé pour une tâche spécifique. Avec l'entraînement fin, le modèle de langage est donc poursuivi.
Peut-être que le modèle de langage ne peut pas résumer bien les textes à partir d'une base de données. Cela pourrait également être temporaire, par exemple pour une clinique qui utilise un vocabulaire différent dans les feuilles de soins que celui qui est enraciné dans les données d'entraînement du modèle AI.
La fine-tuning améliore donc les capacités d'un modèle de IA préalablement entraîné concernant une tâche spécifique. Cette tâche est également appelée Downstream-Task.
Selon la tâche assignée et les aptitudes d'un modèle de IA ainsi que la méthode mathématique utilisée pour l'entraînement, il faut différents nombres de données pour obtenir des résultats satisfaisants.
Pour la classification de textes, il peut suffire d'un centaine d'exemples pour effectuer avec succès l'entraînement fin. Pour que un générateur d'image par intelligence artificielle apprenne à reprendre le style d'un artiste, 10 exemples suffisent déjà. Après l'entraînement fin, le modèle génère ensuite des images qui auraient pu être peintes par l'auteur des 10 exemples de modèles.
En résumé, il faut beaucoup moins de données d'entraînement pour le fine-tuning et c'est même plus raisonnable que lors du pré-entraînement. On peut supposer que le nombre de jeux de données nécessaires pour le fine-tuning ne dépasse rarement les 10 000 exemples. En fait, il est souvent beaucoup moins nécessaire d'avoir ces 10 000 exemples. Cela dépend du cas. Pour la complétude, mentionnons un cas particulier: Un modèle de base est fine-entraîné avec l'objectif de créer une version améliorée du modèle de base. C'est ce qui s'est passé par exemple avec Llama3. Le sous-module entraîné a reçu 64 000 jeux d'exemples d'apprentissage. Ce processus est généralement effectué par d'autres. On peut ensuite utiliser ces modèles améliorés comme si ils avaient été créés dès le départ (pré-entraînement).
Le fine-tuning a lieu en pratique dans les entreprises pour des modèles de langage petits. Petit ne signifie pas qu'il s'agit d'un modèle de langage LLM "grand", mais il désigne la relation entre "énorme" (ChatGPT) et un "très bon LLM" (comme Llama3-8B). ChatGPT a probablement plus de 1 000 milliards de connexions neuronales, tandis qu'un modèle de 8 milliards n'en a que 8. Le "B" signifie "milliard" en anglais et désigne une milliarde.
Pre-Training versus Fine-Tuning
Voici une vue d'ensemble des différences entre le pré-entraînement et l'affinement, présentée de manière concise. Cette vue d'ensemble inclut également les caractéristiques liées à la protection des données et aux données synthétiques. Les données synthétiques sont des données générées artificiellement pour augmenter l'étendue des données d'entraînement. Ces données sont obtenues grâce à des modèles de IA !
| Caractéristique | Pre-Training | Fine-Tuning |
|---|---|---|
| Objet | Création d'un modèle de IA généralisable | Améliorer un modèle de IA existant pour une tâche spécifique |
| Analogie | L'éducation d'un enfant par ses parents + formation scolaire | Études à l'université ou formation complémentaire après la scolarité |
| Données d'entraînement | Aussi nombreux que possible, souvent des milliards de données | Il arrive souvent que 10 exemples suffisent, souvent 100. Très rarement il y aura 10 000 ou plus d'exemples. |
| Temps de calcul | Pour des modèles modernes, plusieurs millions d'heures | Peu d'heures à plusieurs semaines |
| Protection des données personnelles | Peu pratiquement respecté | Peut être respecté en général (seulement pour les données d'entraînement détaillées) |
| L'anonymisation est-elle possible ? | Presque pas | Très bien en général |
| Droit d'auteur respecté ? | Presque pas | Très bien en général |
| Les données synthétiques sont-elles sensées ? | Seulement en cas de nécessité ou pour des améliorations au sein d'une même gamme de modèles | Oui, pour la multiplication des données d'entraînement et l'amélioration de la variance de celles-ci |
L'anonymisation des données d'entraînement pour le fine-tuning est soumise aux mêmes conditions que la protection des données: Toutes les données qui ont déjà été intégrées au modèle de base lors du pré-entraînement ne peuvent plus être anonymisées ultérieurement. La situation est encore plus mauvaise avec les données protégées par le droit d'auteur. Car on ne voit pas d'abord si ce sont des œuvres protégeables qui sont en jeu. Lors de la protection des données, on peut souvent déterminer s'il s'agit de personnes concernées.
Conclusion
Du point de vue des données, le fine-tuning est maîtrisé par ordre de grandeur mieux que le pré-entraînement. Cela concerne cependant uniquement les données qui entrent dans le fine-tuning. Les données d'entraînement initiales pour le pré-entraînement sont déjà stockées dans le modèle AI, et accessibles à tout moment.
Le Pre-Training est un défi technique. Certes, d'un point de vue logiciel, il se déroule presque de la même manière que le réglage fin. Cependant, il nécessite d'énormes capacités de calcul et un nombre extrêmement élevé de données d'entraînement.
Il en va tout autrement pour le Fine-Tuning. Il se contente d'un matériel grand public abordable et n'a souvent besoin que de très peu de données d'entraînement.
L'entraînement fin prend donc en héritage le "cerveau" avec les données d'entraînement initiales stockées et y ajoute quelques nouvelles données. Ces rares nouvelles données peuvent être très bien maîtrisées du point de vue de la RGPD. Cependant, un modèle de base illégal, qui a été finalement entraîné, reste un modèle finalement entraîné illégal. Les données illégales du modèle de base colorient donc toutes les versions ultérieures du modèle. Quelque chose d'illégal ne peut pas être rendu légal par l'ajout de quelque chose de conforme au droit.
Les données synthétiques n'améliorent pas vraiment la qualité ou le respect de la vie privée dans un modèle de base:
- Les données synthétiques peuvent également contenir un lien avec une personne ou un œuvre protégé par le droit d'auteur. C'est tout naturel, car leur modèle est les vraies données.
- Lorsque des données synthétiques sont obtenues en modifiant des données réelles, il peut arriver que des déclarations fausses sur des personnes soient faites. Cela serait une détérioration de la situation juridique dans le modèle de langage de l'intelligence artificielle.
En général, on peut dire que les modèles de IA sont compétitifs uniquement si ils ont pu être entraînés avec le plus grand nombre possible et le meilleur des données d'entraînement. Ainsi, en fait, tous les modèles de langage d'IA concurrents Closed et Open Source disponibles sont formellement illégaux. D'ailleurs, Mistral a été entraîné avec des données du "web ouvert", comme Mistral le dit lui-même.
L'utilisation continue et acceptée d'un quelque chose de formellement illégal sera probablement, selon la logique du droit, considérée comme autorisée ou au moins tolérée dans le domaine de l'intelligence artificielle.
Un autre problème est l'utilisation de services cloud comme ChatGPT ou Azure. Car là, on envoie souvent des données de tiers ou des secrets commerciaux propres à des entreprises américaines et à leurs services de renseignement nationaux.
Si l'argument de la sécurité des données ne suffit pas, on lui suggère de nommer ses cas d'utilisation concrets et d'utiliser une intelligence artificielle optimisée à cet effet. Ce type d'intelligence artificielle est appelé ici intelligence artificielle hors ligne. Elle fonctionne en autarcie, soit sur un serveur loué, soit sur un serveur propriétaire de l'entreprise et fournit souvent des résultats meilleurs que les intelligences générales telles que ChatGPT.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
