Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

IA: Quel est le meilleur modèle linguistique ?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Article au format PDF (uniquement pour les abonnés à la newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Un nouveau modèle linguistique (LLM) a récemment fait sensation. Il a obtenu le meilleur score dans un benchmark populaire et s'est même avéré nettement meilleur que ChatGPT-4 Omni, le modèle haut de gamme actuel d'OpenAI. Mais quel modèle linguistique est vraiment le meilleur ?

Introduction

Avec le Repère AlpacaEval, de nouveaux modèles linguistiques sont testés. Le taux de gain (Win-Rate) indique combien bien un LLM a réussi dans le test. Voici les premiers rangs des modèles qui sont considérés comme connus:

Au premier rang se trouve GPT-4 Omni d'OpenAI avec un taux de gain de 57,5 %. Ce taux est ajusté pour la longueur („LC Win Rate“). Cela signifie que les taux de gain longueur corrigés réduisent les distorsions de longueur de GPT-4. Ainsi, il est tenu compte du fait que GPT-4 est considéré comme un outsider et a quelques particularités qui mettraient à mal d'autres modèles sans correction.

Passons maintenant aux modèles linguistiques issus de la communauté, qui sont moins connus. Le classement pour les modèles de la communauté est le suivant:

Comme on peut le voir, le modèle appelé NullModel occupe la première place. Il présente un taux LC Win de 86,5 %. En revanche, ChatGPT-4 Omni n'a eu que 57,5 % (16e place dans le classement qui comprend également les modèles communautaires).

Le benchmark n'est en soi pas un bon représentant des tâches de l'intelligence artificielle qui se présentent dans votre entreprise ou votre administration. Car d'abord il est très important que la tâche soit prise en compte. Certains modèles peuvent mieux comprendre les questions, d'autres mieux déduire ou encore d'autres peuvent mieux résumer ou traduire des textes.

Les entreprises allemandes doivent cependant tenir compte du fait que allemand est généralement la langue principale dans l'entreprise et dans les documents écrits. Les benchmarks sont cependant généralement optimisés pour l'anglais ou d'autres langues, comme le chinois ou l'hindi.

La particularité du vainqueur du test

En soi, un benchmark fournit donc davantage un indicateur qu'une information fiable.

Il y a une particularité avec le vainqueur, NullModel: il a triché. Mais ce qui est perfide, c'est que le modèle de langage NullModel fournit toujours la même réponse à toutes les questions posées dans l'évaluation. Le code pour cela est même accessible en ligne.

Le NullModel arrive donc en tête des résultats du test, bien qu'il réponde toujours à la même question à toutes les questions posées. Les questions ont cependant des réponses correctes complètement différentes. Si les bonnes réponses étaient toujours «oui», on ne devrait pas s'inquiéter de ce problème.

En réalité, il y a donc beaucoup de réponses différentes pour les nombreuses questions du Benchmark qui sont correctes. Cependant, le Benchmark fournit les Meilleures notes pour l'LLM, qui répond toujours la même chose.

Le benchmark s'est donc laissé berner.

Quel est le meilleur modèle linguistique ?

Le juriste dirait: ça dépend. Tout dépend du cas d'application.

Ceux qui ne savent pas à quoi va servir un système d'IA ont bien d'autres problèmes que de trouver le meilleur modèle de langage. Pour un chatbot général, les modèles connus, présentés dans la première illustration, conviennent très bien.

Si l'on souhaite intégrer des connaissances du Internet, ChatGPT échoue régulièrement. La raison est que un système à faible coût (du point de vue de l'utilisateur qui paie souvent avec ses données) ne peut pas effectuer arbitrairement nombreuses recherches sur Internet par prompt. Cela serait tout simplement non rentable pour OpenAI. Comme on peut lire chez Anthropic et leur Computer Use-approche, cela devient très coûteux rapidement. Il arrive que 20 dollars par heure soient réunis pour une tâche qui nécessite des recherches. Malheureusement, lors de l'envoi de la tâche à l'intelligence artificielle, on ne sait pas combien il est difficile d'obtenir le résultat.

Le meilleur modèle linguistique pour un cas d'application dans votre entreprise est un LLM finement entraîné.

Quelques recommandations pour les modèles linguistiques aident à la mise en place correcte et au lancement d'une stratégie d'IA.

Taille du modèle linguistique

Comme règle générale: plus la tâche est vague, plus le LLM doit être grand. Le cas limite est ChatGPT. Ce modèle est tellement immense que les matériels nécessaires à son fonctionnement coûtent des millions d'euros (et encore bien plus pour OpenAI, car plus de 10 utilisateurs utilisent le système).

ChatGPT peut répondre à toutes sortes de questions et fournit souvent des résultats très bons. Cependant, même les questions simples ne peuvent parfois pas être répondues correctement. Ainsi, ChatGPT ne peut pas déterminer avec précision le nombre de "r" dans le mot Strawberry. De plus, ChatGPT se base également sur des fausses connaissances enregistrées dans le LLM. Ce n'est pas seulement cela qui donne lieu à Halluzinationes.

La taille d'un modèle linguistique s'exprime en milliards de paramètres. Un milliard représente 1 B (B = billion = milliard en anglais). Un paramètre est une connexion entre deux neurones dans le réseau neuronal.

Des modèles de langage très petits, comme par exemple Llama3.2-1B, sont bien adaptés aux appareils mobiles ou généralement pour des temps d'attente rapides. Mais la qualité des réponses en souffre. Les questions générales peuvent souvent être répondues correctement. Lorsqu'une question est posée en allemand, cela change tout, à savoir pour le pire. La grammaire allemande n'est pas suffisamment prise en compte ici.

Les modèles de langage plus petits comme 7B ou 8B maîtrisent souvent la langue allemande très bien. Ils peuvent résumer des textes, générer des idées ou traduire des textes. Sur un serveur AI standard, la vitesse d'exécution est moyenne.

Avec l'aide de modèles réduits, la vitesse de l'inference peut être améliorée. La qualité en souffre à peine.

Les modèles de IA sont les meilleurs lorsqu'ils sont intégrés dans un système d'IA et qu'ils doivent résoudre des problèmes concrets. Un système d'IA est une sorte de programme de cadre qui contient, outre la partie IA, la logique conventionnelle. Pourquoi doit un modèle de langage compter le nombre de lettres dans un mot alors que du code classique peut le faire beaucoup plus rapidement et mieux encore, à savoir avec 100% d'exactitude ?

Un exemple d'une tâche concrète est un assistant IA pour le département des ressources humaines. Un candidat envoie son curriculum vitae en réponse à une annonce de poste au responsable des ressources humaines. Le responsable des ressources humaines souhaite maintenant savoir combien bien le curriculum vitae du candidat correspond aux exigences mentionnées dans l'annonce de poste (espérons qu'il y a). L'assistant IA compare ensuite le curriculum vitae avec l'annonce de poste. Le système d'intelligence artificielle qui l'entoure s'assure que le curriculum vitae et les compétences mentionnées à l'intérieur sont examinés sous plusieurs angles: Quelles connaissances requises sont bien remplies et quels ne le sont pas ? Quelques qualités exceptionnelles a-t-il en général, qui peuvent être précieuses pour chaque entreprise ?

En outre, des détails sont pris en compte: un informaticien ne doit pas mentionner dans son curriculum vitae qu'il maîtrise JSON. Il le fait soit déjà, soit il l'apprend en 5 à 45 minutes. C'est quelque chose que ChatGPT ne peut pas connaître. Mais la section professionnelle le sait et peut l'incorporer au système AI.

Un assistant AI pourrait également effectuer une recherche en ligne sur le candidat pour la direction des ressources humaines et présenter les résultats au recruteur. C'est quelque chose que même un modèle AI ne peut pas faire. Un système AI, comme ChatGPT, ne fait pas cela non plus pour vous. En tout cas, pas pour environ 22 euros par mois ou pour quelques centimes par demande. OpenAI ne veut pas fouiller l'internet à large échelle pour vous parce que vous ne voulez peut-être pas donner d'argent à OpenAI ou que vous commencez déjà à réfléchir à vos coûts dès 50 euros.

Avec l'aide de Mise au point, les modèles linguistiques peuvent être adaptés à des tâches spécifiques. Les résultats sont généralement beaucoup meilleurs que ceux obtenus avec ChatGPT ou toute autre intelligence universelle. De tels modèles finement entraînés peuvent en outre être très petits. Ainsi, la vitesse d'inference est potentiellement très élevée.

D'autres modèles que les LLM

Les modèles linguistiques classiques sont sans doute les modèles d'IA les plus répandus. Mais il en existe bien d'autres.

Par exemple, il existe des Safeguard-Modèles. Ces LLMs ne servent qu'à vérifier les entrées d'un utilisateur ou les sorties d'un autre modèle de langage. La saisie contient-elle une invitation à une action illégale ? La sortie contient-elle un guide pour la fabrication d'une bombe ?

Pour les tâches de classification, d'autres types de modèles conviennent mieux que les LLMs. Vous souhaitez par exemple découvrir quel type d'e-mail quelqu'un a envoyé à votre entreprise. Était-ce une demande ? Était-ce une réclamation ? Était-ce une démission ? Ou le destinataire voulait-il simplement mentionner un interlocuteur ? Pour cela, on entraîne un classificateur. C'est peu d'effort mais cela apporte beaucoup.

Pour soutenir les employés moins expérimentés, des machines de recherche vectorielle sont très bien adaptées. Un client d'une location de voiture signale un dommage par courriel ou application. L'employé du loueur doit maintenant décider comment régler le dommage. L'assistant AI cherche les cas comparables les plus proches du passé et présente au salarié des recommandations pour la procédure probablement la meilleure à suivre. De tels données historiques sont en particulier abondantes dans les assurances.

Les modèles d'image sont généralement connus. Ils rendent de bons à très bons services. Mais encore mieux, c'est avec des modèles d'image affinés ou Adaptateur que l'on peut produire des images selon vos préférences (style, atmosphère, coloris, sujet). Voici un exemple:

Vous trouverez certainement ce qui a servi de modèle pour ce type d'images. Le nombre d'exemples pour l'apprentissage d'un adaptateur d'images peut être très faible. Souvent, 8 ou 15 exemples suffisent, selon la dispersion du matériel visuel. Le nombre d'exemples peut être augmenté par un ajout synthétique.

Pour la transcription audio, il existe désormais des modèles Whisper de haute qualité. Ils fournissent des résultats nettement meilleurs que le standard Microsoft dans Teams. C'est du moins ce qui ressort d'un test effectué par un éditeur de protection des données. La transcription a été comparée avec celle de Microsoft Teams et celle réalisée par Dr. RGPD à l'aide d'un système AI propre. Le système AI propre prend en compte un vocabulaire spécifique à l'entreprise, qui inclut même les noms de famille. Personne ne sait s'il faut écrire Schmitt avec un ou deux "t" ou avec "dt", encore moins une intelligence artificielle.

Exemples de modèles d'IA et de leurs capacités

A l'aide de quelques exemples, nous allons démontrer comment la taille du modèle, l'actualité du modèle et le type de données saisies (texte, image, …) ont un impact sur la qualité de la réponse:

  • Llama3-7b: mauvais selon les critères actuels, grandiose à sa sortie ; peut bien fonctionner sur son propre matériel
  • Llama3-1:8b: très bon pour de nombreuses tâches ; peut bien fonctionner sur son propre matériel
  • Llama3-70b: bon à très bon pour de nombreuses tâches, mais en partie moins bon que le plus récent Llama3.1:8b ; ne peut fonctionner correctement que sur du matériel coûteux
  • Llama3.1-70b: Très bon pour de nombreuses tâches ; quelques faiblesses pour l'allemand ; ne peut être utilisé raisonnablement que sur du matériel coûteux
  • Llama3.1-405b: Encore mieux que Llama3.1:70b, mais pas nécessairement pour l'allemand ; ne peut fonctionner correctement que sur du matériel très coûteux
  • Llama3.2-3b: bon, mais moins bon que Llama3.1:8b, mais réponses plus rapides

Outre ces LLM, il existe d'autres types de modèles. En voici quelques exemples:

  • Pixtral-12B: très bien pour interroger des images. Exigences matérielles acceptables
  • Qwen2.5-72B: Très bon pour la génération de code de programme ; ne peut être utilisé raisonnablement que sur du matériel coûteux
  • FLUX.1-rapide: en partie de très bons résultats lors de la génération d'images, mais souvent des insuffisances lors de la génération de textes allemands dans l'image ; peut aussi être exploité raisonnablement avec des astuces sur du matériel moins cher

La qualité des résultats varie donc en fonction de l'actualité et de la taille du modèle. Pour les textes, on a plutôt tendance à exiger une sortie exacte, sauf pour les tâches créatives. Pour les images, la situation est souvent différente.

Résumé

Définissez votre cas d'utilisation. Si vous n'avez aucune idée de ce que l'IA peut faire pour vous, vous n'avez pas besoin de l'IA. Utilisez plutôt un moteur de recherche, comme d'habitude.

Commencez par un cas d'application simple. Si vous n'êtes pas sûr de ce qui pourrait être simple à cet égard, n'hésitez pas à demander conseil.

Plus un modèle d'IA est petit, plus le cas d'application doit être concret. Les très grands modèles, tels que ceux avec des paramètres de 405B, ne devraient généralement pas être gérés par votre entreprise elle-même. Même si les ressources étaient disponibles, il y aurait généralement de meilleures possibilités.

Un modèle 70B comme Llama3.1-70B est déjà assez grand pour une utilisation personnelle. Ce n'est qu'un ordre d'idée, pour que vous puissiez vous faire une idée. Il est préférable de choisir des modèles deux fois plus petits au maximum.

Pour les tâches qui ne nécessitent pas de réponses génératives, il existe de meilleures possibilités que les modèles d'IA que "tout le monde" connaît. Ces modèles sont parfaits pour trouver des connaissances dans les documents de votre entreprise. De plus, les exigences matérielles sont si faibles que personne ne doit penser aux prix d'achat ou de location. La recherche sémantique, c'est-à-dire la comparaison de textes ou d'images (ou d'audio ou …), est également un exemple de départ judicieux dans l'ère de l'IA.

Qui exploite sa propre IA, n'a pas à s'inquiéter de la sécurité des données. Pas grand-chose à s'inquiéter, si un serveur GPU est loué en Allemagne par un fournisseur allemand avec DPA et encore moins d'inquiétudes, si un serveur propre se trouve dans votre centre de calcul ou est loué via Colocation.

Une intelligence artificielle propre signifie: Contrôle total des données. Les données ne vont nulle part, à moins que vous le vouliez. Les données ne sont récupérées nulle part, à moins que vous le vouliez. Seuls les utilisateurs ont accès aux documents par l'intermédiaire d'une intelligence artificielle, s'ils en ont la permission. Cela est appelé AI hors ligne.

En conclusion, il est important de savoir: Le modèle de langage ou tout autre modèle d'IA qui convient le mieux à votre cas d'application doit être évalué concrètement en fonction de ce dernier. Chaque semaine, il y a de nouvelles innovations et de nouveaux modèles d'IA. Cela vaut donc la peine d'y regarder de plus près.

Messages clés de cet article

Le NullModel est le "meilleur" modèle du benchmark, mais il donne toujours la même réponse à toutes les questions – ce qui n'est pas vraiment utile. Le meilleur modèle linguistique dépend de l'application.

Pour les questions simples, les petits modèles linguistiques tels que les modèles 7B ou 8B sont plus adaptés, car ils maîtrisent souvent mieux la grammaire allemande que les modèles plus grands.

Les assistants IA peuvent effectuer des recherches dans les cas historiques afin de fournir des recommandations sur la meilleure façon de procéder.

Commencez par une application simple comme la recherche sémantique dans les documents d'entreprise.

Au-delà de ces messages clés
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

L'IA pour les agences d'images et les créatifs