Comment un utilisateur peut-il empêcher l'utilisation de ses données dans les modèles d'IA ?

Il n'existe actuellement aucune méthode fiable pour protéger complètement les données provenant de sites Web avant de les utiliser dans les modèles d'IA. Le fichier robots.txt est respecté, mais de nombreuses applications d'IA l'ignorent ou d'autres demandes d'exclusion.

Quel problème pose l'attribution des données comme étant à caractère personnel ou non ?

La classification automatique des données comme étant personnelles ou non personnelles n'est pas toujours possible en raison des incertitudes dans les algorithmes et de la difficulté d'identifier de manière fiable les noms propres. Cela entraîne une incertitude quant au respect des réglementations sur la protection des données.

Quelle est la situation actuelle concernant l'utilisation des données par les modèles d'IA ?

Les modèles d'IA sont actuellement entraînés principalement en lisant des millions de documents provenant d'Internet, beaucoup de ces documents contenant des données personnelles. Il n'existe aucun moyen de l'empêcher techniquement et de nombreuses applications ne respectent pas les demandes d'exclusion des opérateurs de sites Web.

Puis-je supprimer de manière fiable des données d'un modèle d'IA existant ?

Non, il n'est actuellement pas possible d'effacer des données d'un modèle d'IA. Les modèles sont conçus de sorte que les données soient stockées de manière permanente et utilisées pour l'entraînement. Il n'existe pas de méthode pour supprimer les données de manière chirurgicale.

Comment fonctionne exactement le filtrage des réponses des modèles d'IA ?

Les modèles d'IA utilisent des filtres pour supprimer des informations spécifiques, telles que des noms de personnes ou des numéros de téléphone, de leurs réponses. Cependant, ce filtrage n'est pas toujours fiable et des données peuvent être présentes même lorsqu'elles ne sont pas directement affichées.

Pourquoi est-il problématique que les modèles d'IA apprennent à partir de données personnelles ?

Les modèles d'IA apprennent à partir de quantités massives de données, qui contiennent souvent des informations personnelles. Cela soulève des questions concernant le consentement des utilisateurs à l'utilisation de leurs données, ce qui peut entraîner des problèmes de confidentialité importants.

Peut-on supprimer de manière fiable des données personnelles des modèles d'IA ?

Non, les données ne peuvent pas être supprimées de manière fiable des modèles d'IA. Cela signifie que les informations qui étaient auparavant stockées dans ces modèles peuvent potentiellement toujours être récupérées et utilisées, ce qui aggrave les problèmes de confidentialité.

Pourquoi la réglementation stricte des modèles d'IA est-elle critiquée ?

Les demandes de réglementation stricte des modèles d'IA sont considérées comme irréalistes et impraticables. La large diffusion de ces modèles dans le monde entier rend un contrôle et une restriction complets pratiquement impossibles.

Intelligence artificielle: Données personnelles dans les modèles d'IA

Beaucoup demandent la régulation des applications d'intelligence artificielle. Les données de masse utilisées pour l'entrainement des modèles d'intelligence artificielle ne devraient plus contenir d'informations personnelles, même si elles proviennent de sources publiques. C'est par exemple ce que demande le commissaire à la protection des données fédéral. Qu'est-ce que cela signifie en pratique ?

Introduction

Un modèle de IA est un cerveau électronique, qui représente un réseau neuronal. Les connexions entre les neurones représentent des connaissances, tout comme le cerveau humain. Les connaissances sont inscrites à partir du téléchargement de millions ou milliards de documents en ligne et gratuits. Parmi ces documents figurent notamment des sites web.

Dans de nombreux de ces textes qui influencent les modèles d'intelligence artificielle, il y a des données personnelles. Ces données atterrissent donc dans les données d'entraînement d'une intelligence artificielle. Et encore plus: les dépenses générées par un chatbot sur la base de ces données d'entraînement peuvent également contenir des données personnelles.

Il apparaît problématique à certains, comme le délégué à la protection des données du Bund en Allemagne, que ces données personnelles atterrissent dans les modèles de l'intelligence artificielle. À partir de ces données dans les modèles d'intelligence artificielle, plusieurs questions se posent en général:

L'est-ce que le titulaire des données (la personne concernée) est d'accord pour que ses données personnelles se retrouvent dans un modèle de IA spécifique ? Plus précisément (tant qu'il n'y a pas d'obligation d'informer),:
Comment un titulaire de données peut-il bloquer l'utilisation de ses données dans des modèles d'intelligence artificielle (Opt-Out) ?
Comment supprimer des données d'un modèle de IA existant après coup ?

Ces questions donnent lieu à une série de problèmes en pratique qui sont discutés ci-dessous.

Quand des données personnelles sont présentes ?

Il est souvent impossible de déterminer si une donnée concerne une personne ou non, qu'elle soit personnelle ou non. Un homme reconnaît peut-être les noms propres des personnes comme tels, mais pas toujours. Une machine (IA) ne parvient pas à le faire encore moins bien.

Les données personnelles directes, comme les noms ou les adresses postales, ne peuvent en principe pas être identifiées de manière fiable par des machines.

Si un numéro de plaque d'immatriculation, un numéro de téléphone ou le nom d'une entreprise sont personnels, personne ne sait (sauf un intime connaisseur du véhicule, du numéro de téléphone ou de l'entreprise). Une machine ne peut donc pas savoir si «Maier Ltd.» est un valeur de données personnelles. Le nom d'une société à responsabilité limitée est en effet personnel lorsqu'on peut déduire directement ou indirectement une personne (voir Article 4, paragraphe 1 DGSV). Un nom de société à responsabilité limitée composé d'une seule personne est manifestement personnel. Le nom d'une société à responsabilité limitée avec 50 employés n'est manifestement pas personnel. Lorsque le nom d'une société à responsabilité limitée avec 50 employés est mentionné en relation avec un salarié qui mesure 1,98 mètre ( «notre plus grand salarié»), cette combinaison de l'entreprise et de la hauteur du salarié doit être considérée comme personnelle.

Les données ne peuvent jamais être classées de manière fiable comme étant personnelles ou non personnelles en bloc.
Les algorithmes comportent donc toujours des incertitudes importantes lors du reconnaisance de données personnelles.

En particulier dans l'exemple précédent, il est clair que personne et rien ne peut considérer les données comme fiables, qu'elles soient personnelles ou non. Même une numéro de téléphone ne peut être directement identifié comme étant à la fois d'une personne ou d'un entreprise et si l'entreprise se compose d'une seule personne ou plusieurs personnes.

Comment peuvent les données être bloquées pour leur utilisation dans des modèles d'intelligence artificielle ?

La réponse courte est: Non du tout. En tout cas, c'est actuellement la situation. Il n'y a simplement pas de standard pour protéger les données sur des sites web d'accès non autorisé. La lecture d'une page web publique est évidemment toujours possible. C'est précisément l'objectif d'un site web: il doit être accessible à une large publicité. Les programmes de robots (Crawlers, Scanners) peuvent difficilement être distingués d'un lecteur humain. Beaucoup de sites web n'ont même pas la possibilité technique de tenter quoi que ce soit dans ce sens. Voilà pour l'état actuel des techniques.

Le seul moyen actuellement praticable est l'utilisation de la robots.txt fichier. Ce fichier permet aux propriétaires de sites Web de définir quelles moteurs de recherche peuvent accéder à leurs contenus et lesquels ne le peuvent pas. Désormais, ce fichier est également respecté par certaines applications d'intelligence artificielle qui grèvent des contenus.

Il est techniquement impossible de bloquer l'utilisation de ses propres données dans des modèles d'intelligence artificielle.
Pour l'instant et pour le moment.

Beaucoup d'applications de l'intelligence artificielle ne s'intéressent pas du tout à cette robots.txt fichier ou à toute demande d'exclusion des propriétaires de sites web. De plus, il s'agit de souhaits et non de définitions techniques. Même si par exemple ChatGPT dit qu'il respecte les souhaits d'une page web concernant la mise en veilleuse des contenus de la page contre l'utilisation par ChatGPT, c'est une affaire de confiance pure. Quiconque a encore confiance dans OpenAI et ChatGPT devrait rappeler les faits:

L'agence de protection des données italienne a interdit ChatGPT car OpenAI aurait stocké apparemment illégalement des données, par exemple les entrées d'utilisateur.
OpenAI n'a pas demandé l'accord de l'utilisateur mais a plutôt proposé une possibilité d'opt-out.
OpenAI fait maintenant de la publicité avec ChatGPT Enterprise et l'avantage "Obtenez une sécurité & confidentialité d'entreprise de niveau". Cela signifie: "Nous nous conformons uniquement aux règles de protection des données, lorsque vous achetez la version entreprise".

Qui fait confiance à des entreprises comme OpenAI, Google ou Microsoft dès qu'une information rassurante est publiée, alors que ces entreprises ont déjà montré un comportement inquiétant à maints reprises, n'agit pas de manière rationnelle, mais Désir de bonheur.

Les données de crawlage provenant de bases de données comme The Pile ou Common Crawl ou C4 agissent d'abord indépendamment de ChatGPT, sont ensuite intégrées à ChatGPT et à d'autres modèles de l'intelligence artificielle pour la formation de grands modèles linguistiques. Ainsi, un problème devient un problème multiplié, c'est-à-dire par lecteur de données.

Comment sont-elles supprimées les données d'un modèle de IA existant ?

La réponse courte est: Non. En tout cas, il n'existe à ce jour aucun procédé mathématique permettant de supprimer des données d'un modèle AI avec une précision chirurgicale (ou du tout).

Le seul moyen actuel de supprimer des données d'un modèle existant est de le jeter et de le réentraîner complètement. Lors du réenrtraînement, les données à supprimer ne sont plus prises en compte pour l'entrainement.

Les données d'un modèle existant de l'intelligence artificielle ne peuvent pas être supprimées.
Pour l'instant et pour le moment.

Cela sonne extrêmement compliqué et coûteux. Exactement c'est ça. Un modèle de IA à partir de zéro, est particulièrement temps consommant, très coûteux et dure une éternité même sur des serveurs géants. Un serveur IA consomme beaucoup d'électricité et est très coûteux car il utilise au moins une carte graphique très chère ou plusieurs cartes graphiques chères pour effectuer les calculs longs qui seraient normalement nécessaires dans un temps raisonnable.

Une possibilité pragmatique mais peu esthétique de retirer les données d'un système informatique, au moins officiellement, consiste à faire fuir la réponse du modèle par un filtre. Le filtre supprime alors toutes les occurrences d'un nom de personne ou d'un numéro de téléphone spécifique. Cependant, cela n'est pas fiable. Les données sont également présentes même si elles ne sont pas fournies comme réponse. De même, il en va de la boîte e-mail d'un ancien contact qui a souhaité supprimer ses données mais qui n'ont pas été supprimées. Lorsque l'on contrôle à nouveau par une autorité de contrôle ou de poursuite, qui se produira probablement rarement, ou lors du prochain incident de données en raison d'une attaque informatique, le dilemme sera alors visible pour tous.

Qu'est-ce qui change grâce à l'IA en fait ?

Les moteurs de recherche donnent déjà depuis longtemps des réponses à partir du contenu lu. Ces réponses sont peut-être aussi souvent incompatibles avec les faits. Sur ce point, on ne sait rien d'une autorité de protection des données qui s'est alarmée, en tout cas.

Les chatbots alimentés par IA peuvent donner des réponses sous une forme nouvelle, qui est appelée abstractive. Au lieu d'un citation, l'utilisateur reçoit un texte en nouveaux mots. Dans ce cas, il peut être facilement difficile de faire des erreurs ou des fausses affirmations.

Dans les médias sociaux, il est toutefois certain que le nombre de fausses informations à l'encontre des personnes n'est pas vraiment bas. Dans cette mesure, la spécifique agitation provoquée par l'intelligence artificielle ne peut pas être entièrement comprise. Les déclarations actuelles tendent un peu vers l'actionnisme.

Pour honorer la mémoire de beaucoup d'entre eux, on remarque que l'inconnu ("la AI") semble susciter une vive inquiétude chez beaucoup, ce qui les pousse à vouloir faire quelque chose contre cela. Que des souhaits naissent de là qui ne sont pas réalisables, c'est analogue au § 26 TDDDG, qui a été imposé par la loi par des lobbyistes.

La maîtrise de ses propres données

En fait, personne ne contrôle techniquement ses données dès lors qu'elles peuvent passer en mains étrangères, par exemple à la suite de leur publication sur un site Web ou de leur utilisation/ mise à disposition sur une plateforme de médias sociaux.

Il est probable que le responsable de la protection des données fédéral se réfère à la contrôle sur ses propres données contre l'utilisation dans les modèles d'intelligence artificielle des plateformes spécifiques où une personne possède un compte en tant qu'usuari. Cette affaire est bien sûr pertinente et importante, mais elle n'a rien à voir avec l'intelligence artificielle en particulier. Bien sûr, tous les données personnelles doivent être traitées conformément à la RGPD, que ce soit par une intelligence artificielle ou autrement.

Résumé

Les données personnelles ne peuvent pas être identifiées avec certitude comme telles. Ni un homme ni une machine n'y parviennent. Cela restera ainsi pour l'éternité, à moins que la définition de Article 4, paragraphe 1 RGPD, qui détermine ce qu'entendent par données personnelles, ne change.

Les données ne peuvent pas être bloquées contre leur utilisation dans des modèles de IA. Ce problème serait purement juridiquement résolvable. Il n'est jamais techniquement sûr de le résoudre. Au lieu de cela, on devrait se fier à l'idée que les crawlers respectent les directives (les souhaits !) d'une page web. Là-bas, il est presque plus sûr de s'appuyer sur Microsoft, malgré les grosses failles de sécurité qu'il génère, ignore et minimise.

L'intelligence artificielle ne peut pas être réglementée de manière satisfaisante, quelque que soit le désir qui s'en émane.
Les souhaits ne changent pas les limites objectives de la réalité.

Les données ne peuvent pas être effacées des modèles de IA existants. Ce problème pourrait théoriquement être résolu. Il est plus probable que les modèles d'IA soient simplement recalculés à l'aide de nouvelles cartes graphiques (GPUs) encore bien plus rapides et abordables.

Résumé

Le désir de régulation de l'IA est compréhensible. Il conduit cependant à des demandes qui sont irréalisables et sans rapport avec la pratique. On sait si cela est accepté pour donner l'impression d'accomplir ses devoirs politiques ou s'il s'agit d'une ignorance, soit dit en passant.

Lorsque les données sont personnelles, on ne peut pas décider en général. Peut-être qu'une analyse intergalactique pourrait nous aider ?

Une intelligence artificielle se comporte d'elle-même comme un être humain. Les êtres humains sont généralement peu fiables. On s'en aperçoit au moins lors de la prochaine réservation de rendez-vous. Même des experts arrivent souvent à des résultats faux ou mauvais. Pourquoi devrait-il en être autrement pour un programme informatique qui reproduit la fonction d'intelligence humaine?

Au lieu de faire des demandes irréalisables, il faudrait d'abord sanctionner sévèrement et rapidement les très grandes entreprises qui ne respectent pas les règles, puis en tirer des conclusions pour prendre d'autres mesures.

Independamment de la nature des règles futures du comportement du marché il convient de noter que les incroyables potentielles, qu'elles soient positives ou négatives, des applications d'intelligence artificielle ne peuvent plus être arrêtées. Chacun peut à tout moment construire un modèle d'intelligence artificielle sous son bureau ou télécharger et utiliser un existant. Il serait particulièrement contre-productif si ces modèles d'intelligence artificielle pouvaient être utilisés dans le monde entier, sauf en Allemagne ou dans l'UE.

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.