Les moteurs de recherche de documents, les chatbots, les assistants vocaux et les systèmes question-réponse peuvent également être adaptés à la langue allemande, qui est sous-représentée dans le monde entier. ChatGPT ne fournit pas des réponses exactes. Des modèles de langage AI fiables pour l'allemand sont possibles malgré quelques petites imperfections comme la prise en compte du genre.
Introduction
L'utilisation de l'intelligence artificielle dans l'entreprise diffère fondamentalement de l'utilisation privée de ChatGPT, Microsoft Bing Google Bard ou d'autres systèmes de Datakraken.
Les entreprises donnent rarement leurs données, y compris les secrets commerciaux, les brevets, les données des employés, les données des clients, les contrats ou autres données confidentielles à ChatGPT. D'un autre côté, il faudra fournir plus de données à d'autres. C'est ce que dit le Data Governance Act (DGA) de l'UE, qui est entré en vigueur en septembre 2023 en raison de son caractère réglementaire.
En outre, les exigences en matière de réponses correctes d'un chatbot ou d'autres systèmes de langage artificiels sont beaucoup plus élevées que dans le domaine privé. Cela vaut au moins à l'extérieur du domaine créatif. La classe supérieure est des questions juridiques, qui ne peuvent pas répondre bien aux systèmes modernes mais généralement tenus comme ChatGPT et la AI de Bing de Microsoft (motivation: voir le lien ci-dessous). Même les administrations qui servent le citoyen ne devraient pas se fier à des chatbots peu fiables, dont fait partie ChatGPT.
Le point d'interrogation de genre est approprié pour contaminer les données d'entraînement des modèles linguistiques.
En particulier parce que le point-virgule est généralement un signe de fin de phrase.
Même la prétendue et récemment publiée fonction de correction automatique d'écriture de Google Bard ne fonctionne pas correctement, comme l'a montré un texte de pratique avec une attention plus précise.
Il est inutilement compliqué aux modèles de langage de l'intelligence artificielle en les entraînant avec des données qui affaiblissent parfois la grammaire d'une langue parlée par un sexe spécifique. De plus, le point d'interrogation de genre assure que des phrases entières dans des textes ne sont pas reconnues du tout.
L'allemand est dans le comparaison mondiale une langue traitée de manière maternelle (voir l'image ci-dessous). Des modèles linguistiques puissants, qui se concentrent sur l'anglais, comprennent seulement l'allemand parce que cette langue a été quasi involontairement adoptée comme sous-produit en tant qu'émergente propriété.
Avantages de modèles linguistiques propres
Un modèle linguistique peut être obtenu de la manière suivante:
- Créer sur des bases solides. Cela nécessite généralement quelques centaines de milliers d'heures de calcul GPU (GPU = processeur graphique), ce qui n'est donc pas réalisable pour la plupart des entreprises.
- Réutiliser des modèles de langage ouverts, façonnés par un fine-tuning: voie standard plus exigeante, mais maîtrisable.
- Réutiliser des modèles de langage ouverts qui reçoivent uniquement dans le prompt les documents propres à ce prompt comme contexte.
Les deux premières possibilités ont la capacité, de manière différente, d'adopter une langue de genre. Le fine-tuning aura cependant des problèmes avec ceux qui ne peuvent pas être évités complètement.

La troisième possibilité, de réutiliser des modèles linguistiques ouverts, est la plus technique et souvent fonctionnelle. Elle ne parvient en rien à traiter les questions de genre. C'est une affirmation technique et non politique.
Un modèle linguistique allemand propre est non seulement possible, mais il a aussi de nombreux avantages. Parmi lesquels:
- La langue allemande est au premier plan. Nous vivons en Allemagne et non en Espagne. Les anglicismes peuvent être compris par un modèle de langue allemand.
- Le lest de plusieurs langues ne doit pas être emporté. C'est bon pour les exigences matérielles (carte graphique !) et la vitesse d'exécution.
- Contenus de haute qualité peuvent être utilisés à la place du "mélange" (= matériau généralement disponible, qui n'a pas été sélectionné).
- Concentration sur un domaine d'étude (ou plusieurs).
- Guidage optimal des utilisateurs avec sensibilisation aux résultats, au lieu de faire comme si chaque réponse était correcte (voir ChatGPT ou Bing).
- Coûts réduits ou fixes: Un système de AI propriétaire de l'entreprise repose principalement sur les coûts d'achat ou de location d'un serveur de AI. Une utilisation fréquente n'y change rien. Les coûts restent également très bas. C'est tout à fait différent des solutions cloud comme ChatGPT. La consultation d'un document devient rapidement coûteuse avec une utilisation fréquente. Quiconque utilise l'API du chatbot d'OpenAI ferait mieux de ne pas programmer la récursion ou les boucles infinies, car sinon le budget est consommé en minutes sans aucun bénéfice. Cela ne peut pas arriver avec un système proprement dit.
Le prochain chapitre traite de données d'entraînement pour les modèles de langage artificielle allemands, car ils constituent la base de l'intelligence artificielle linguistique. De là découlent également plusieurs propositions pour les autorités et autres organismes publics qui pourraient permettre une intelligence artificielle en Allemagne à grande vitesse.
Données d'entraînement pour les assistants de langage AI allemands
Les données d'entraînement sont ce que les parents donnent à leur enfant pour l'éduquer. Pour les modèles de langage, il faut des textes allemands. D'où viennent-ils si on ne les vole pas ?
L'internet offre une grande quantité de textes allemands. Les entreprises ont également dans leur intranet un grand nombre de documents qui sont des sources d'informations appropriées.
PDF au lieu de HTML
Le Haut Tribunal Fédéral (HTF) publie ses arrêts apparemment uniquement sous forme de fichier PDF. La plateforme à but non lucratif openjur prend ces PDF et en extrait (manuellement?) le texte. Ensuite, openjur met les arrêts en ligne gratuitement. Même le Journal Fédéral publie beaucoup de documents uniquement sous forme de fichier PDF.
La version analoge se comporte de la même manière avec d'autres sources publiques importantes qui pourraient intéresser les modèles AI. Par exemple, de nombreuses autorités réglementaires publient leurs rapports d'activité ou guides sous forme de PDF.

L'image montre un extrait d'un document PDF officiel et public d'une autorité allemande de protection des données. Non seulement les deux colonnes rendent déjà le texte importation plus complexe, mais elles sont également séparées par une sous-tête. Ce qui est facilement compréhensible pour l'homme est un problème pour la phase précédant l'intelligence artificielle. Presque tout peut être résolu, mais avec quel effort et à quelle fiabilité ? Pourquoi ne pas fournir des données brutes ou au moins (ou seulement) des formats à une colonne unique ? Les exemples sont HTML ou texte brut. L'HTML peut être développé comme site Web lisible par l'homme qui peut également être lu par la machine, ce qui est appelé Scraping.
Éviter l'expression inverse de la langue facile
Du point de vue logique et technique, le genre est l'opposé d'une langue simple («Langue facile»). Voici un exemple d'un document d'une autorité allemande de protection des données:
- «Collègues» au lieu de «collègue»
Dans d'autres documents de la même autorité, on trouve cependant:
- Collègues
Ces formulations ne sont ni cohérentes ni "légères". De plus, il semble que la langue de genre n'affecte que les textes qui sont livrés par des moteurs de recherche ou des chatbots comme sortie.
La question est de savoir si chaque utilisateur pose une question à un modèle d'intelligence artificielle avec un langage de genre ou s'il n'y en a peut-être pas un seul. Même l'intelligence artificielle ne peut pas faire des miracles. De même, aucun être humain n'est un génie. La plupart des gens en Allemagne ne peuvent même pas changer une roue d'un véhicule.
La qualité des données est importante: Un modèle de langage nommé Zephyr a seulement un dixième des paramètres d'un puissant modèle 70B et est (également) en raison de la qualité des données aussi bon.
Cela entraîne un chargement du modèle et une génération de réponse beaucoup plus rapides.
Il devient encore plus complexe du point de vue technique, car il n'est pas clair avant le traitement par l'IA comment une normalisation des mots qui ont été déformés par la féminisation doit se produire. Voici deux exemples de phrases avec les mots normalisés correspondants:
- … des employés:s … –> employés
- Par les employés: … -> Employé(s)
Comme on peut le voir, deux formes de mots deviennent une seule en faisant disparaître la grammaire par le genre. L'homme peut suivre, car il est déjà une intelligence (pas toujours, mais occasionnellement). Un ordinateur qui traite des textes à l'avance pour un modèle de langage d'intelligence artificielle ne peut pas résoudre cette ambiguïté avec certitude. En tout cas, il faut considérer chaque cas individuellement jusqu'à ce que le résultat global soit globalement cohérent.
La formulation suivante est difficile à traiter par ordinateur car la grammaire s'y perd complètement. Il est probable que beaucoup de gens ont des problèmes pour comprendre cette langue.
- Concitoyen(e)
Qui le trouve encore plus compliqué utilise au lieu du point-virgule de genre le astérisque de genre:
- Citoyen/citoyenne
Les modèles AI sont basés sur des millions, voire des milliards d'exemples, souvent sous forme de texte. Lorsque l'on parle de grands modèles linguistiques, un exemple est une partie du texte. Puisqu'il s'agit de modèle qui apprennent à partir de nombreux exemples, il faut utiliser la langue de genre avec beaucoup plus d'exemples. Le problème fondamental devient donc inutilement compliqué.
Independamment de cela, la grammaire souffre, comme indiqué ci-dessus, d'une certaine flouité. De la précision à l'imprécision. Qui se connaît un peu en modèles AI sait combien il est important données d'entrée propres. Plus de distinctions et plus d'imprécision sont en soi contrôlables, mais ils nécessitent plus d'efforts. L'effort pour entraîner ou affiner des modèles AI est déjà élevé en soi et peu de gens peuvent le supporter.
Les procédures classiques de l'NLP comme la lemmatisation et la formation de racines verbales sont troublées par le point d'interrogation de genre.
Déclaration objective, purement technique. NLP = Traitement automatique des langues naturelles.
Une question intéressante serait de savoir si les défenseurs du langage de genre l'utiliseraient également dans les champs de recherche des moteurs de recherche ou comme prompt dans les modèles d'intelligence artificielle. Conformément à leur logique, un défenseur du langage de genre devrait le faire. Désormais, il sait que les moteurs de recherche et les modèles d'intelligence artificielle apprennent également des entrées utilisateur. Si cependant les utilisateurs ne font qu'utiliser une langue traditionnelle, courante et non la version générée, alors malheureusement (ou heureusement?) l'application ne maîtrisera pas suffisamment bien le langage de genre.
Il s'agit de l'argumentation pure pour supprimer le genre au profit de l'intelligence artificielle. Cependant, une remarque. J'ai reçu un commentaire avant cela qui disait: «La langue appartient au peuple» – Résolution du Bundestag du 26 mars 1998». À ce sujet, il convient de noter que la majorité des Allemands est contre le langage de genre. Si le décision démocratique de la majorité est respectée, la décision du peuple est donc tombée. Un autre commentaire a dit que l'intelligence artificielle interrogée avait répondu qu'elle comprenait le langage de genre. Probablement était-ce ChatGPT, un système qui donne des réponses agréables en permanence, et répond souvent faux, et est en général inapproprié pour fournir des résultats précis pour des tâches spécifiques dans l'entreprise.
Propositions pour une meilleure qualité des données
Les recommandations suivantes s'adressent à la fois aux entreprises et aux organismes publics. En particulier, ceux-ci ont la possibilité de fournir des informations d'intérêt général sous forme numérique facilement traitable.
Les documents mis en ligne devraient être fournis dans un format de texte brut. Généralement, on utilise une version plus évoluée, à savoir HTML. Se contenter d'un PDF peut souvent poser des problèmes pour la traitement automatique. Les PDF avec plus d'une colonne pour le texte en flux sont encore plus problématiques. Quelqu'un qui veut fournir un PDF devrait idéalement fournir un format de document facilement traitable. Même les personnes aveugles, qui veulent ou doivent utiliser un lecteur d'écran, se débrouillent mieux avec des documents simples en PDF.
Un index de documents facilite la recherche d'existants documents et épargne le crawl ou l'extraction. Lors du crawl, les sites web sont automatiquement grattés. Cela rend à l'utilisateur non seulement plus difficile son travail. Le serveur du site gratté souffre également en raison de davantage et surtout inutile trafic des données.
La langue de genre est techniquement une catastrophe. Il n'y a pas grand-chose à ajouter d'un point de vue technique. Quiconque souhaite fournir des textes compréhensibles par tous devrait renoncer aux formes de genre. De nombreux gens ont du mal à comprendre certaines formulations de genre, tout comme la langue courante. L'inclusion ne se fait pas en compliquant les choses. La surnommée Leichte Sprache semble non seulement prendre ses distances avec le gendernage mais introduire d'autres simplifications.
Qui modifie, devrait le faire de manière consciente à partir d'un point de vue logique et dans son propre intérêt. Conscient signifie faire ceci dans chaque phrase, au moins mais aussi dans les requêtes de recherche ou les prompts. Personne ne peut être contraint de le faire, mais il ne doit pas s'étonner si un chatbot ou une moteur de recherche ne répond pas en utilisant la langue du genre.
Résumé
La langue des genres techniquelement polluée les données d'entraînement pour les modèles de langues de l'intelligence artificielle, ou rend l'entraînement plus difficile, car il faut plus de données d'entrée. La langue des genres linguistiquement complique certaines phrases, surtout lorsque les articles indéfinis avant le mot principal sont également dégénérés. Cela entraîne l'exclusion des lecteurs qui ont déjà des problèmes à comprendre des textes écrits au-dessus du niveau de la bière.
A cet endroit, aucune discussion sur le genre n'est souhaitée. Ici, il s'agit de considérations purement fonctionnelles.
Qui souhaite fournir des documents dans l'ère de l'intelligence artificielle, qu'il s'agisse du public ou de systèmes internes d'IA, devrait, pour des raisons techniques, s'abstenir d'utiliser la langue des genres, ou dupliquer toutes les données d'apprentissage et y ajouter des formes contraires.
Qui trouve la langue des genres géniale devrait l'utiliser partout sur Internet, même si cela nécessite plus de travail d'entrée. Sinon, le modèle de langage de l'intelligence artificielle alimenté par les entrées se perfectionne toujours pour la langue utilisée jusqu'alors, qui ne compte pas les astérisques de genre, etc.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
