Pourquoi l'UE est-elle à la traîne dans le développement des systèmes d'IA ?

L'UE est à la traîne en raison de lois sur la protection des données telles que le RGPD, qui restreignent fortement l'utilisation des données massives pour l'entraînement des modèles d'IA. Cela entraîne un manque de données d'entraînement nécessaires aux systèmes d'IA performants.

Quel rôle jouent les lois sur la protection des données dans le développement de modèles d'IA dans l'UE ?

Les lois sur la protection des données constituent un obstacle majeur, car elles réglementent fortement l'utilisation des données massives, nécessaires à l'entraînement des modèles d'IA. Les règles strictes rendent plus difficile le développement de systèmes d'IA compétitifs dans l'UE.

Pourquoi le droit d'auteur allemand est-il problématique lors de l'utilisation de données provenant de sites web allemands pour l'entraînement de modèles d'IA ?

Le droit d'auteur allemand exige une opposition explicite de la part du responsable du site web si ses contenus sont utilisés pour l'entraînement des IA. Le vol d'informations de mentions légales et de pages de conditions générales est la norme, ce qui rend la collecte de données automatisée impraticable et juridiquement risquée.

Quel problème pose la définition actuelle de l'IA de l'UE ?

La définition de l'IA de l'UE est problématique car, par exemple, elle ne considère pas ChatGPT comme intelligent, bien que le modèle fournisse souvent de meilleures réponses que l'homme moyen. Cette définition ignore la véritable performance et l'autonomie des systèmes d'IA modernes.

Pourquoi les modèles d'IA sont-ils fondamentalement problématiques, selon l'article ?

L'article soutient que la plupart des modèles d'IA sont basés sur des données traitées illégalement, et sont donc essentiellement illégaux. Le manque d'application et la réaction insuffisante des autorités aggravent davantage ce problème.

Comment garantir l'utilisation des systèmes d'IA afin de minimiser les risques juridiques?

Pour minimiser les risques juridiques, l'utilisation des systèmes d'IA doit être soigneusement surveillée. Cela peut être réalisé en faisant fonctionner ces systèmes hors ligne, par exemple avec des serveurs GPU ou des clusters GPU, afin de contrôler de manière exhaustive les entrées et les sorties.

Pourquoi les modèles d'IA sont-ils actuellement si limités dans l'UE ?

La situation actuelle est due à des réglementations strictes sur la protection des données telles que le RGPD, qui restreignent fortement l'utilisation des données personnelles pour l'entraînement de modèles d'IA.

Quelles mesures sont proposées pour améliorer le développement de l'IA dans l'UE ?

Il est recommandé d'accroître et d'intensifier les sanctions à l'encontre des fournisseurs d'IA, en particulier ceux situés en dehors de l'UE, et de réduire les obstacles bureaucratiques afin d'améliorer le respect des lois.

Réglementation de l'IA dans l'UE: Grand succès ou mauvais départ ?

L'intelligence artificielle repose sur de grandes quantités de données. L'UE protège particulièrement les données des personnes ou des créateurs. C'est en soi une bonne chose, mais cela nuit à la mise au point d'appareils d'intelligence artificielle concurrents. D'autres raisons s'opposent également aux modèles linguistiques performants fabriqués en Allemagne. Est-il possible de résoudre ce dilemme ?

Introduction

Les applications les plus courantes pour l'intelligence artificielle sont probablement des modèles de langage (LLMs) et des modèles d'image. Peut-être que des générateurs de vidéos ou des détecteurs d'objets seront bientôt ajoutés à la liste. Cet article se concentre donc, pour simplifier les choses, sur les LLMs. Les conclusions sont en grande partie ou entièrement transposables à de nombreuses autres catégories de modèles, comme par exemple des classificateurs ou des systèmes de constat médical.

Actuellement, tous les modèles de langues concurrents viennent d'États qui ne sont pas membres de l'UE. Mistral peut être une petite exception, bien que leurs modèles de langage ne soient pas parmi les meilleurs.

Aleph Alpha n'est pas une exception, car son nouveau modèle Pharia-1 se classe en moyenne dans les benchmarks, pour le dire gentiment.

Certains pensent que l'UE pourrait peut-être encore rattraper son retard. Cela ne se produira pas. Car pour des modèles linguistiques performants, il n'est nécessaire que d'une seule chose: des données. Rien d'autre. Ni du personnel, ni de la technologie, ni de l'argent, ni de temps. Rien ne manque sauf beaucoup de données, le plus représentatives possible. Bien sûr, les données doivent être conformes à la législation. Ainsi, il reste encore moins de données disponibles.

Pour les modèles linguistiques très performants, il manque une ingrédient essentiel en Europe :

Données.

Tout le reste est toujours disponible: une personne, un ou quelques serveurs, le meilleur code de programme pour l'entraînement de l'IA.

Les raisons du retard de l'UE en matière d'IA sont, au sens propre du terme, prescrites.

Lois sur la protection des données

La protection des données est primordiale. De nombreux scandales le démontrent, ces scandales ayant pour origine principalement en dehors de l'Europe. Voici quelques exemples :

Dans les États-Unis, une présidentschaftswahl très importante a été influencée par le fait que des données d'analyse des utilisateurs de Google et Facebook (Meta) ont été utilisées de manière illégale ("Cambridge Analytica").

Microsoft est considéré comme un risque de sécurité par des instances importantes aux États-Unis, en raison de la mauvaise protection des données chez Microsoft.

Meta n'est pas meilleure que Microsoft, mais plutôt pire. Car Microsoft gagne au moins de l'argent avec des produits en plus que avec les données, tandis que Meta ne possède rien d'autre que les données des utilisateurs. Ces données sont maximisées en termes de commercialisation. Les lois sur la protection des données comme le RGPD sont plutôt un obstacle dans ce contexte. ([1]) ([2])

Sur Google, on peut rapporter des choses négatives similaires. Le fait que les autorités de sécurité américaines puissent arrêter des criminels en analysant l'utilisation de produits Google ne rassure pas vraiment. Qui, comme citoyen honnête, se trouve au mauvais endroit au mauvais moment, est rapidement considéré comme un criminel et punit injustement ou même risque la peine de mort.

La RGPD en tant que règlement a un très bon principe fondamental. Elle a été édictée avant même que l'intelligence artificielle ne devienne un sujet d'actualité. Elle est en soi très sensée. Mais pourquoi n'est-elle pas appliquée dans les faits ? Les autorités de protection des données allemandes sanctionnent en réalité à peine en doses homéopathiques.

La RGPD permet l'utilisation de données personnelles pour la formation d'un système AI uniquement sur la base du l'intérêt légitime (cf. Art. 6 al. 1 RGPD). La consentement est exclu en cas de données massives. Un contrat serait juridiquement difficile à établir pour des données massives.

Malheureusement: pour les administrations, la base légale de droit (intérêt légitime) N'EST PAS disponible (article 6, paragraphe 1, DGSV après le point f). Les administrations ne peuvent donc pas effectuer des systèmes AI. C'est particulièrement dommage, car justement les administrations auraient beaucoup de données précieuses qui pourraient également être utiles aux citoyens.

La RGPD s'applique uniquement aux données personnelles, dont font partie les données pseudonymisées (Article 4, paragraphe 1 de la RGPD). La RGPD ne s'applique pas aux données anonymes.

Cependant, si l'on se permet une légère exagération, il n'existe pas vraiment de données anonymes:

Les données anonymes sont des données pour lesquelles les données originales ne sont plus accessibles (cas très rare).
Les données anonymisées ne sont pas aussi représentatives que les données d'origine et sont donc moins précieuses pour l'formation duAI.
L'anonymisation elle-même est un processus de traitement des données. Les autorités ne sont en principe pas autorisées à le réaliser. D'autres ne peuvent le faire que si un intérêt légitime est établi, ce qui est difficile à évaluer.

Nous parlons ici de la pratique. Ce qui est valable en théorie, ne passionne aucune entreprise du monde qui veut résoudre des problèmes concrets. Les discussions théoriques font manquer quelque chose, à savoir le lien avec la pratique.

En fait, les données massives ne peuvent pas entrer seules dans un système de IA en raison des préoccupations relatives à la protection des données, par exemple pour l'entraînement de l'IA.

Cela vaut également pour les données publiques sur Internet. Les cas suivants sont problématiques:

Quelqu'un écrit quelque chose sur une autre personne. Cela peut être une affirmation factuelle, ou aussi une diffamation. La personne concernée ne souhaite pas que cette information soit connue publiquement et encore moins qu'elle soit stockée dans un modèle linguistique d'IA.
Une personne publie elle-même des informations sur elle-même. Une IA stocke ces informations car le site web de la personne est lu par un crawler. Plus tard, la personne décide de retirer les informations et en fait la demande au responsable de l'IA. Mais hélas, il est impossible de supprimer des données des modèles d'IA. Essayez d'effacer une information de votre tête. Ça ne marche pas. Votre cerveau et le cerveau de l'IA sont tous les deux des réseaux neuronaux. Il n'y a pas de différence ici. Croyez-le ou non. L'important est que les informations ne puissent pas être supprimées des modèles d'IA.

Répétition: En raison de la protection des données, les grands ensembles de données ne peuvent pas être utilisés pour l'entraînement du AI dans l'UE. C'est au moins une conséquence indésirable de la RGPD qui est sinon très sensée.

Droit d'auteur

Le droit d'auteur allemand permet par § 44b UrhG la formation de modèles de AI à l'aide d'œuvres protégées par le droit d'auteur. Ces œuvres peuvent même être stockées temporairement pour la formation de modèles de AI.

Un œuvre est automatiquement protégé par le droit d'auteur, s'il a été créé (par un être humain). On ne veut pas devenir l'auteur, on devient automatiquement l'auteur. C'est analogue au statut de témoin: si vous avez vu une infraction, vous êtes témoins. Vous ne pouvez pas choisir si vous voulez être témoins ou non. Vous êtes devenus témoins ou bien vous n'êtes pas.

Malheureusement, le législateur allemand a eu les mauvais conseillers lorsqu'il a conçu l'article 44b du droit d'auteur. Car dans ce paragraphe, une contradiction absurde et très pratiquement inapplicable est mentionnée pour les auteurs.

Les auteurs peuvent s'opposer à ce que leurs œuvres soient utilisées dans des systèmes de AI. Cette opposition ou cette réserve doivent, selon l'avis juridique allemand, être formulées soit dans la rubrique "imprint" soit dans les conditions générales d'utilisation du site web (voir Drucksache 19/27426, p. 89, 2ème alinéa). Mais comment faire cela ?

La robots.txt est une fichier reconnu et largement utilisé standard de la branche. Ce standard est parfaitement lisible par machine. Apparemment, personne des conseillers qui avaient consulté le gouvernement fédéral ne le savait. De même, il semblait inconnu que dans les CGU ou dans l'imprimé, typiquement, la lisible par machine n'était pas prédominante. Souvent, c'est comme ça avec les conseillers: un conseiller veut rester conseiller ; donc, il évite les remarques négatives ou exprime intentionnellement ou en raison d'incompétence linguistique des complexités à tel point que personne ne le comprend. Le standard allemand est l'opposé du standard de la branche: il n'est pas lisible par machine, ce n'est pas un standard et il n'est pas largement utilisé. Bref: le standard allemand est inutilisable d'un point de vue pratique.

Pire encore : si vous souhaitez lire une page Web et utiliser son contenu pour entraîner un modèle d’IA, vous devrez ensuite pouvoir prouver que le propriétaire du site Web n’y avait pas opposé d’objection lorsque vous aviez lu sa page. C’est ce que le législateur allemand souhaite.

Malheureusement, personne ne peut prouver de manière sûre (en masse !) que, au moment X, sur les sites Web Y et Z ainsi que sur les dix millions de sites Web A1 à A10000000, il n'y avait pas de droit d'auteur. Ils devraient lire la totalité du site Web, pour trouver les pages d'impression et les conditions générales d'utilisation. Quel est le cas où il y a deux impressions ? Cela peut arriver. Certains propriétaires de sites Web pourraient même faire cela par méchanceté, afin de vous inciter au délit.

Conclusion: Le droit d'auteur allemand rend impossible la consultation de données massives provenant de sites web allemands de manière légalement sécurisée.

Burocratie et démocratie

Au lieu de bureaucratie, il faudrait dire "bureaucrazy" (l'esprit de jeu de mots fonctionne mieux en anglais).

La démocratie est pour beaucoup le plus petit mal de tous les maux. On peut y adhérer. Pourtant, la démocratie reste un mal.

Un exemple le montre très bien. Une définition pour une technologie ou un concept technologique ne devrait pas être décidée par des consultations de 27 parties (chacune avec plusieurs personnes). Exactement cela s'est passé, lorsque la Commission européenne a élaboré dans le cadre du AI Act une définition pour "système d'intelligence artificielle". L'OCDE compte encore plus de membres. L'auteur de cet article avait fait quelques propositions de modification pour la définition de l'intelligence artificielle, que l'OCDE a acceptées. L'un des principaux auteurs de la définition a répondu ensuite (en substance) qu'il était impossible d'y apporter encore plus de modifications. Il a écrit en effet: "Il faudrait convaincre plus de 30 délégations nationales pour accepter tout changement supplémentaire !" C'était fini avec les progrès.

Même l'adaptation de la RGPD au temps des IA n'est pas possible en raison de la bureaucratie. Cela a pris des années. Dans le temps des IA, déjà des semaines sont une éternité.

La définition de l'intelligence artificielle par l'UE ne peut être qualifiée que d'inappropriée et erronée. Elle ne classe pas ChatGPT, le chatbot actuel le plus performant et remarquable, comme intelligent. Ainsi, la plupart des gens ne sont pas intelligents, car ChatGPT est capable de fournir généralement de meilleures réponses que la plupart des humains sur cette planète. Peut-être que les humains ne sont pas si intelligents après tout ?

La définition de l'UE de ce qu'est un système d'IA est:

«Système d'intelligence artificielle» (système AI) est un système assisté par ordinateur conçu pour fonctionner avec un degré d'autonomie variable et qui peut produire des résultats tels que des prédictions, des recommandations ou des décisions, influençant ainsi l'environnement physique ou virtuel, pour des objectifs explicites ou implicites;

Source: Loi sur l'intelligence artificielle (voir modification 163)

Critique rapide de la définition de l'UE sur l'intelligence artificielle: ChatGPT n'est pas en soi autonome. Un aspirateur robotique encore relativement stupide est cependant autonome. Cela ne peut pas être un critère d'intelligence. Résultat, ce n'est pas une condition pour l'intelligence ; exemple: Albert Einstein réfléchit 3 ans durant ; est-il pendant ces 3 ans idiot, uniquement parce qu'il n'a produit aucun résultat ? ChatGPT influence généralement ni l'environnement physique ni l'environnement virtuel, mais un aspirateur robotique déjà. La critique en détail se trouve dans un article séparé qui propose de surcroît une définition solide de l'intelligence artificielle.

Source est la solution ?

Il convient tout d'abord de rappeler qu'il existe les types suivants de modèles de langage d'IA :

Des modèles de langage de grande taille (LLM) très performants, qui sont toujours qualifiés d'illégaux. Personne (pas même un automatisme !) ne peut légalement examiner et filtrer ces quantités massives de données.
Des modèles de LLM (grands modèles linguistiques) à mi-performants qui accordent de l'importance à la protection des données et au droit d'auteur. Il faut malheureusement, d'après la loi des probabilités, dire qu'il est probable que ces modèles soient basés sur des données traitées de manière illicite.
Des modèles de langage (LLM) peu performants. Ceux-ci sont a) totalement conformes à la loi, b) très proches de la conformité ou c) tout aussi illégaux. Dans le premier cas, cela n'a pas d'importance car personne ne souhaite utiliser ces modèles. Dans le deuxième cas, de l'énergie vitale a été gaspillée. Le troisième cas reflète un créateur de LLM qui ne comprend ni le training de l'IA ni les dispositions légales

En résumé, tous les modèles de langage sont en fait illégaux. Tous ceux qui ne le sont pas intéressent personne. Les seules autorités pourraient vouloir utiliser des modèles moins performants parce qu'elles n'en voient pas d'autre issue (comme mentionné ci-dessus, et étant donné que les autorités sont réglementées, ce qui est souvent une bonne chose).

Zwischenfazit: Il n'y a pas de solution. La AI est illégale (et utile).

Il faut soit utiliser l'IA en sachant qu'elle est interdite, soit interdire à tous de l'utiliser. Tous les chemins intermédiaires sont des actes de désespoir, qui peuvent être tout à fait légitimes. Le problème juridique sera probablement résolu par l'acceptation, tout à fait dans le sens de la pensée sociale du droit: ce qui est interdit mais que tout le monde fait et qui est de fait toléré, sera soit continué à tolérer soit finalement déclaré légal. Ce dernier scénario ne se produira pas si rapidement (voir bureaucratie et démocratie).

Petit sous-scène illustrant l'évolution de la société sociale : autrefois, seul le mot « spontanéité » était considéré comme correct. Presque personne ne l'avait utilisé. Presque tout le monde n'utilisait que « spontanité ». À un moment donné, « spontanité » a été déclaré comme factuellement correct. Cependant, le Duden en ligne ne l'a toujours pas intégré et prétend que « spontanité » est « plutôt rare » (ce qui est faux).

Source est la solution pratique ?

Aucune solution, mais un allégement avec un effet secondaire très agréable pour le contribuable, sont les sanctions.

Quand enfin les autorités de protection des données allemandes remplissent leur mission correctement et punissent les contrevenants à la protection des données correctement ? Justification à l'exemple du suivi Web: Le suivi Web est approximativement l'utilisation d'Analytics Google, du Pixel Facebook ou d'autres services d'analyse invasifs. On utilise généralement des cookies pour cela. Ce manquement se produit quotidiennement sur millions de sites web allemands. L'infringement est super facile à prouver (ouvrir le navigateur, ouvrir la console réseau avec la touche F12, ouvrir le site Web, ouvrir les yeux). Pourquoi n'y a-t-il pas d'amendes pour ce manquement constaté ?

La solution pratique consiste à sanctionner sévèrement et de manière rapide les fournisseurs de AI comme Microsoft, OpenAI, Meta, Google, Apple en Europe. Selon la législation applicable, soit le fournisseur est directement sanctionné, soit les utilisateurs de ces solutions sont sanctionnés. Aucune inquiétude, il y aura encore ChatGPT. Car après la première sanction, tout ira mieux. Et même si ChatGPT n'était pas déjà comme ça. Même Facebook ne disparaîtra pas (malheureusement), après que les pages Facebook aient été éteintes par les autorités allemandes chargées de la protection des données (le Cour de justice de l'Union européenne permet explicitement cela aux autorités)

Résultats des modèles de l'intelligence artificielle

Un autre approche est la considération des sorties de systèmes d'intelligence artificielle. Pour inspiration, mentionnons simplement ceci: Une personne qui développe des pensées et des fantasmes de toute sorte dans sa tête mais ne les matérialise pas fait rien de mal et vit entièrement en accord avec le droit et la loi. De même, un système d'intelligence artificielle pourrait être évalué sur ses sorties. Un système d'intelligence artificielle sans sortie est en réalité sans danger. Il faut simplement s'assurer que ce fait ne sera pas abusé, par exemple par des interrogatoires secrets ou même par des interrogatoires en soi. Une personne a seulement son propre cerveau sous sa main de commandes plus les cerveaux artificiels de systèmes d'intelligence artificielle qui ne peuvent pas encore se défendre contre leur utilisation par autrui.

Conclusion

L'intelligence artificielle peut être très utile. C'est précisément le problème: utiliser quelque chose parce qu'il est utile, même s'il est interdit, crée un certain dilemme.

La protection de la vie privée, par exemple, grâce à la RGPD, est une grande conquête. Cela exclut en grande partie l'utilisation des systèmes AI. Ce dilemme ne peut pas être résolu dans les prochaines années.

L'intelligence artificielle met en évidence l'incapacité de l'UE à agir rapidement et efficacement dans le domaine des technologies. Seuls des exemples minimes montrent des progrès. Par exemple, lorsque l'autorité de protection des données italienne a temporairement interdit ChatGPT. Le fait que le médiateur de protection des données de Hesse ait ensuite osé envoyer un questionnaire à OpenAI, alors que tout le monde l'avait déjà fait, n'a pas compensé la passivité maximale de la Hesse en matière de droits des personnes concernées.

L'intelligence artificielle est illégale. Elle peut être très utile pour beaucoup de personnes et d'entreprises. Cela sonne comme un paradoxe et constitue en effet une contradiction juridique. La réalité quotidienne est cependant déconnectée de la théorie juridique. L'utilité joue dans l'examen juridique un rôle (au moins) secondaire.

L'intelligence artificielle va nous tous tuer. Mais d'ici là, elle fera des choses incroyablement utiles pour nous.

D'après Sam Altman.

Il est important que les dépenses liées aux systèmes d'IA soient utilisées avec beaucoup de prudence. Cela ne peut pas être réalisé avec des services cloud comme ChatGPT, surtout si la boîte de dialogue est fournie par OpenAI.

Soit la AI est exploitée elle-même (Intelligence artificielle hors ligne, serveur GPU ou cluster GPU). Alors les entrées dans la AI (prompts) ainsi que les sorties peuvent être surveillées de manière optimale. De même, le système AI peut être optimisé et fournit souvent des résultats beaucoup meilleurs que tous ces concurrents qui n'ont été conditionnés qu'à l'utilisation universelle.

Ou bien, il sera utilisé pour améliorer la sécurité un service cloud dont l'interface de programmation d'applications (API) est utilisée, et non sa interface utilisateur standard. On peut au moins surveiller les entrées données à la AI tierce ainsi que ses sorties.

Dans tous les cas, le droit d'auteur allemand devrait être révisé. De plus, les autorités devraient avoir davantage de possibilités pour utiliser des données à des fins de formation AI.

Cependant, la mesure la plus importante et la plus efficace est la sévère sanction des fournisseurs de AI, qui sont souvent situés en dehors de l'UE. Dans ce contexte, il faudrait réduire la bureaucratie pour que l'état de droit ne devienne pas uniquement une théorie. Ce qui compte, c'est la pratique. Aucun problème n'a été résolu par le papier seul. D'ailleurs, le gouvernement américain a obtenu un accès approfondi aux modèles de AI d'OpenAI et Anthropic en raison d'une ordonnance présidentielle.

Points clés de cet article

L'UE possède des lois de protection des données remarquables. Cela rend difficile le développement de modèles de langage AI de haute qualité, car leur entraînement nécessite d'importantes quantités de données qui ne peuvent pas être légalement sécurisées.

Le RGPD interdit d'utiliser des données personnelles sans consentement ou intérêt légitime pour l'entraînement de systèmes d'IA. Les autorités ne peuvent donc pas entraîner de tels systèmes, car elles n'ont pas de base légale.

Le droit d'auteur allemand rend difficile l'utilisation de données provenant de sites web allemands pour l'entraînement de systèmes d'IA.

La définition de l'IA par l'UE est malheureuse et erronée car elle ne considère pas ChatGPT comme intelligent.

Les modèles d'IA sont quasiment toujours illégaux, mais largement répandus. Une solution pratique pourrait consister à réagir fermement et rapidement contre les violations, par exemple en imposant des amendes aux fournisseurs comme Microsoft, OpenAI ou Google en Europe.

Les systèmes d'IA peuvent être très utiles, mais ils doivent être surveillés avec soin pour prévenir les abus.

La bureaucratie doit être réduite afin que l'État de droit soit mis en pratique, plutôt que de rester théorique.

Sur ces affirmations de base