Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.

Jetzt testen

sofort das Ergebnis sehen

DSGVO Website-Check

Intelligence artificielle: Données personnelles dans les modèles d'IA

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Article au format PDF (uniquement pour les abonnés à la newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Beaucoup demandent la régulation des applications d'intelligence artificielle. Les données de masse utilisées pour l'entrainement des modèles d'intelligence artificielle ne devraient plus contenir d'informations personnelles, même si elles proviennent de sources publiques. C'est par exemple ce que demande le commissaire à la protection des données fédéral. Qu'est-ce que cela signifie en pratique ?

Introduction

Un modèle de IA est un cerveau électronique, qui représente un réseau neuronal. Les connexions entre les neurones représentent des connaissances, tout comme le cerveau humain. Les connaissances sont inscrites à partir du téléchargement de millions ou milliards de documents en ligne et gratuits. Parmi ces documents figurent notamment des sites web.

Dans de nombreux de ces textes qui influencent les modèles d'intelligence artificielle, il y a des données personnelles. Ces données atterrissent donc dans les données d'entraînement d'une intelligence artificielle. Et encore plus: les dépenses générées par un chatbot sur la base de ces données d'entraînement peuvent également contenir des données personnelles.

Il apparaît problématique à certains, comme le délégué à la protection des données du Bund en Allemagne, que ces données personnelles atterrissent dans les modèles de l'intelligence artificielle. À partir de ces données dans les modèles d'intelligence artificielle, plusieurs questions se posent en général:

  1. L'est-ce que le titulaire des données (la personne concernée) est d'accord pour que ses données personnelles se retrouvent dans un modèle de IA spécifique ? Plus précisément (tant qu'il n'y a pas d'obligation d'informer),:
  2. Comment un titulaire de données peut-il bloquer l'utilisation de ses données dans des modèles d'intelligence artificielle (Opt-Out) ?
  3. Comment supprimer des données d'un modèle de IA existant après coup ?

Ces questions donnent lieu à une série de problèmes en pratique qui sont discutés ci-dessous.

Quand des données personnelles sont présentes ?

Il est souvent impossible de déterminer si une donnée concerne une personne ou non, qu'elle soit personnelle ou non. Un homme reconnaît peut-être les noms propres des personnes comme tels, mais pas toujours. Une machine (IA) ne parvient pas à le faire encore moins bien.

Les données personnelles directes, comme les noms ou les adresses postales, ne peuvent en principe pas être identifiées de manière fiable par des machines.

Si un numéro de plaque d'immatriculation, un numéro de téléphone ou le nom d'une entreprise sont personnels, personne ne sait (sauf un intime connaisseur du véhicule, du numéro de téléphone ou de l'entreprise). Une machine ne peut donc pas savoir si «Maier Ltd.» est un valeur de données personnelles. Le nom d'une société à responsabilité limitée est en effet personnel lorsqu'on peut déduire directement ou indirectement une personne (voir Article 4, paragraphe 1 DGSV). Un nom de société à responsabilité limitée composé d'une seule personne est manifestement personnel. Le nom d'une société à responsabilité limitée avec 50 employés n'est manifestement pas personnel. Lorsque le nom d'une société à responsabilité limitée avec 50 employés est mentionné en relation avec un salarié qui mesure 1,98 mètre ( «notre plus grand salarié»), cette combinaison de l'entreprise et de la hauteur du salarié doit être considérée comme personnelle.

Les données ne peuvent jamais être classées de manière fiable comme étant personnelles ou non personnelles en bloc.

Les algorithmes comportent donc toujours des incertitudes importantes lors du reconnaisance de données personnelles.

En particulier dans l'exemple précédent, il est clair que personne et rien ne peut considérer les données comme fiables, qu'elles soient personnelles ou non. Même une numéro de téléphone ne peut être directement identifié comme étant à la fois d'une personne ou d'un entreprise et si l'entreprise se compose d'une seule personne ou plusieurs personnes.

Comment peuvent les données être bloquées pour leur utilisation dans des modèles d'intelligence artificielle ?

La réponse courte est: Non du tout. En tout cas, c'est actuellement la situation. Il n'y a simplement pas de standard pour protéger les données sur des sites web d'accès non autorisé. La lecture d'une page web publique est évidemment toujours possible. C'est précisément l'objectif d'un site web: il doit être accessible à une large publicité. Les programmes de robots (Crawlers, Scanners) peuvent difficilement être distingués d'un lecteur humain. Beaucoup de sites web n'ont même pas la possibilité technique de tenter quoi que ce soit dans ce sens. Voilà pour l'état actuel des techniques.

Le seul moyen actuellement praticable est l'utilisation de la robots.txt fichier. Ce fichier permet aux propriétaires de sites Web de définir quelles moteurs de recherche peuvent accéder à leurs contenus et lesquels ne le peuvent pas. Désormais, ce fichier est également respecté par certaines applications d'intelligence artificielle qui grèvent des contenus.

Il est techniquement impossible de bloquer l'utilisation de ses propres données dans des modèles d'intelligence artificielle.

Pour l'instant et pour le moment.

Beaucoup d'applications de l'intelligence artificielle ne s'intéressent pas du tout à cette robots.txt fichier ou à toute demande d'exclusion des propriétaires de sites web. De plus, il s'agit de souhaits et non de définitions techniques. Même si par exemple ChatGPT dit qu'il respecte les souhaits d'une page web concernant la mise en veilleuse des contenus de la page contre l'utilisation par ChatGPT, c'est une affaire de confiance pure. Quiconque a encore confiance dans OpenAI et ChatGPT devrait rappeler les faits:

  1. L'agence de protection des données italienne a interdit ChatGPT car OpenAI aurait stocké apparemment illégalement des données, par exemple les entrées d'utilisateur.
  2. OpenAI n'a pas demandé l'accord de l'utilisateur mais a plutôt proposé une possibilité d'opt-out.
  3. OpenAI fait maintenant de la publicité avec ChatGPT Enterprise et l'avantage "Obtenez une sécurité & confidentialité d'entreprise de niveau". Cela signifie: "Nous nous conformons uniquement aux règles de protection des données, lorsque vous achetez la version entreprise".

Qui fait confiance à des entreprises comme OpenAI, Google ou Microsoft dès qu'une information rassurante est publiée, alors que ces entreprises ont déjà montré un comportement inquiétant à maints reprises, n'agit pas de manière rationnelle, mais Désir de bonheur.

Les données de crawlage provenant de bases de données comme The Pile ou Common Crawl ou C4 agissent d'abord indépendamment de ChatGPT, sont ensuite intégrées à ChatGPT et à d'autres modèles de l'intelligence artificielle pour la formation de grands modèles linguistiques. Ainsi, un problème devient un problème multiplié, c'est-à-dire par lecteur de données.

Comment sont-elles supprimées les données d'un modèle de IA existant ?

La réponse courte est: Non. En tout cas, il n'existe à ce jour aucun procédé mathématique permettant de supprimer des données d'un modèle AI avec une précision chirurgicale (ou du tout).

Le seul moyen actuel de supprimer des données d'un modèle existant est de le jeter et de le réentraîner complètement. Lors du réenrtraînement, les données à supprimer ne sont plus prises en compte pour l'entrainement.

Les données d'un modèle existant de l'intelligence artificielle ne peuvent pas être supprimées.

Pour l'instant et pour le moment.

Cela sonne extrêmement compliqué et coûteux. Exactement c'est ça. Un modèle de IA à partir de zéro, est particulièrement temps consommant, très coûteux et dure une éternité même sur des serveurs géants. Un serveur IA consomme beaucoup d'électricité et est très coûteux car il utilise au moins une carte graphique très chère ou plusieurs cartes graphiques chères pour effectuer les calculs longs qui seraient normalement nécessaires dans un temps raisonnable.

Une possibilité pragmatique mais peu esthétique de retirer les données d'un système informatique, au moins officiellement, consiste à faire fuir la réponse du modèle par un filtre. Le filtre supprime alors toutes les occurrences d'un nom de personne ou d'un numéro de téléphone spécifique. Cependant, cela n'est pas fiable. Les données sont également présentes même si elles ne sont pas fournies comme réponse. De même, il en va de la boîte e-mail d'un ancien contact qui a souhaité supprimer ses données mais qui n'ont pas été supprimées. Lorsque l'on contrôle à nouveau par une autorité de contrôle ou de poursuite, qui se produira probablement rarement, ou lors du prochain incident de données en raison d'une attaque informatique, le dilemme sera alors visible pour tous.

Qu'est-ce qui change grâce à l'IA en fait ?

Les moteurs de recherche donnent déjà depuis longtemps des réponses à partir du contenu lu. Ces réponses sont peut-être aussi souvent incompatibles avec les faits. Sur ce point, on ne sait rien d'une autorité de protection des données qui s'est alarmée, en tout cas.

Les chatbots alimentés par IA peuvent donner des réponses sous une forme nouvelle, qui est appelée abstractive. Au lieu d'un citation, l'utilisateur reçoit un texte en nouveaux mots. Dans ce cas, il peut être facilement difficile de faire des erreurs ou des fausses affirmations.

Dans les médias sociaux, il est toutefois certain que le nombre de fausses informations à l'encontre des personnes n'est pas vraiment bas. Dans cette mesure, la spécifique agitation provoquée par l'intelligence artificielle ne peut pas être entièrement comprise. Les déclarations actuelles tendent un peu vers l'actionnisme.

Pour honorer la mémoire de beaucoup d'entre eux, on remarque que l'inconnu ("la AI") semble susciter une vive inquiétude chez beaucoup, ce qui les pousse à vouloir faire quelque chose contre cela. Que des souhaits naissent de là qui ne sont pas réalisables, c'est analogue au § 26 TDDDG, qui a été imposé par la loi par des lobbyistes.

La maîtrise de ses propres données

En fait, personne ne contrôle techniquement ses données dès lors qu'elles peuvent passer en mains étrangères, par exemple à la suite de leur publication sur un site Web ou de leur utilisation/ mise à disposition sur une plateforme de médias sociaux.

Il est probable que le responsable de la protection des données fédéral se réfère à la contrôle sur ses propres données contre l'utilisation dans les modèles d'intelligence artificielle des plateformes spécifiques où une personne possède un compte en tant qu'usuari. Cette affaire est bien sûr pertinente et importante, mais elle n'a rien à voir avec l'intelligence artificielle en particulier. Bien sûr, tous les données personnelles doivent être traitées conformément à la RGPD, que ce soit par une intelligence artificielle ou autrement.

Résumé

Les données personnelles ne peuvent pas être identifiées avec certitude comme telles. Ni un homme ni une machine n'y parviennent. Cela restera ainsi pour l'éternité, à moins que la définition de Article 4, paragraphe 1 RGPD, qui détermine ce qu'entendent par données personnelles, ne change.

Les données ne peuvent pas être bloquées contre leur utilisation dans des modèles de IA. Ce problème serait purement juridiquement résolvable. Il n'est jamais techniquement sûr de le résoudre. Au lieu de cela, on devrait se fier à l'idée que les crawlers respectent les directives (les souhaits !) d'une page web. Là-bas, il est presque plus sûr de s'appuyer sur Microsoft, malgré les grosses failles de sécurité qu'il génère, ignore et minimise.

L'intelligence artificielle ne peut pas être réglementée de manière satisfaisante, quelque que soit le désir qui s'en émane.

Les souhaits ne changent pas les limites objectives de la réalité.

Les données ne peuvent pas être effacées des modèles de IA existants. Ce problème pourrait théoriquement être résolu. Il est plus probable que les modèles d'IA soient simplement recalculés à l'aide de nouvelles cartes graphiques (GPUs) encore bien plus rapides et abordables.

Résumé

Le désir de régulation de l'IA est compréhensible. Il conduit cependant à des demandes qui sont irréalisables et sans rapport avec la pratique. On sait si cela est accepté pour donner l'impression d'accomplir ses devoirs politiques ou s'il s'agit d'une ignorance, soit dit en passant.

Lorsque les données sont personnelles, on ne peut pas décider en général. Peut-être qu'une analyse intergalactique pourrait nous aider ?

Une intelligence artificielle se comporte d'elle-même comme un être humain. Les êtres humains sont généralement peu fiables. On s'en aperçoit au moins lors de la prochaine réservation de rendez-vous. Même des experts arrivent souvent à des résultats faux ou mauvais. Pourquoi devrait-il en être autrement pour un programme informatique qui reproduit la fonction d'intelligence humaine?

Au lieu de faire des demandes irréalisables, il faudrait d'abord sanctionner sévèrement et rapidement les très grandes entreprises qui ne respectent pas les règles, puis en tirer des conclusions pour prendre d'autres mesures.

Independamment de la nature des règles futures du comportement du marché il convient de noter que les incroyables potentielles, qu'elles soient positives ou négatives, des applications d'intelligence artificielle ne peuvent plus être arrêtées. Chacun peut à tout moment construire un modèle d'intelligence artificielle sous son bureau ou télécharger et utiliser un existant. Il serait particulièrement contre-productif si ces modèles d'intelligence artificielle pouvaient être utilisés dans le monde entier, sauf en Allemagne ou dans l'UE.

Computer-generiertes Bild
Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Analytics comme outil efficace pour le vol de données du cybercrime