L'évaluation des conséquences sur la protection des données (EDCPD) est obligatoire dans le RGPD pour certaines catégories de traitement de données et vise à identifier et minimiser les risques. S'applique-t-elle également aux systèmes qui utilisent l'intelligence artificielle ? Un aperçu avec recommandations.
Émission de radio en ligne sur le thème
L'évaluation des risques pour l'apprentissage automatique et l'intelligence artificielle en raison de l'épisode 29 du podcast privacy Deluxe:
Introduction
L'article 35 du RGPD introduit le concept d'évaluation des conséquences sur la protection des données et décrit dans quelles circonstances il faut l'effectuer. Au paragraphe 1, on mentionne que cette disposition s'applique en particulier aux nouvelles technologies. L'intelligence artificielle est une telle technologie. ([1])
Une évaluation des risques comme partie d'une DSSA devrait toujours être rapidement réalisable. Puisque l'évaluation des risques est à la fois une condition pour vérifier si une DSAF est nécessaire et un élément de toute DSAF, il faut donc toujours créer une partie de la DSAF.
Évaluation des risques = Multiplication de trois valeurs, voir contribution.
Muss nun pour chaque système d'apprentissage automatique une DSFA être établie ? L'apprentissage automatique peut également être considéré comme une nouvelle technologie. Puisque les approches révolutionnaires comme le Transformer ou des modèles de IA entraînés avec une grande puissance, mais aussi la renaissance de LSTM (Long Short-Term Memory, invention allemande) sont sûrs en combinaison ou partiellement également pour eux-mêmes neuve.
La norme juridique en question se fonde sur la nature, l'étendue, les circonstances et les buts de la traite des données à caractère personnel. Lorsque il s'agit de services numériques, le critère quant à l'étendue de la traite des données devrait régulièrement être considéré comme satisfait.
Puisque l'évaluation des conséquences sur la protection des données n'est pas nécessaire pour toutes les traitements de données, le coût des travaux qui doivent également être effectués en dehors d'une DPE ne doit pas être imputé à la DPE.
Exemples de tels travaux: informations obligatoires, sécurisation des systèmes, formations.
Une DSFA complète est selon l'article 35, paragraphe 1 de la RGPD nécessaire si le traitement des données prévoit un risque élevé pour les droits et libertés des personnes physiques. Quels traitements de données se produisent, il faut le savoir dans le cadre des informations obligatoires selon article 13 de la RGPD ou article 14 de la RGPD.
L'art. 35, al. 2 du RGPD oblige le responsable à consulter le délégué à la protection des données lors de l'exécution d'une évaluation des conséquences sur la protection des données. Ce point est cependant sans rapport avec la question de la DSFA, comme on peut le voir par le fait que dans cet alinéa 2, il est précisé que les DSBs ne doivent être saisis qu'en cas d'existence d'un tel délégué (cf. § 38 du BDSG).
Conformément à la prescription de l'article 35, alinéa 4, les autorités de contrôle établissent une liste des activités de traitement qui sont pertinentes pour une DSFA. La liste de la DSK donne des exemples et mentionne notamment le support client par intelligence artificielle.
L'évaluation des conséquences sur la protection des données
Au début, la RGPD ne s'applique qu'aux données à caractère personnel. Les accès aux appareils terminaux, réglementés par le lex specialis (§ 25 TDDDG, jusqu'au 14.05.2024 on disait TTDSG), sont généralement hors du champ des applications de l'intelligence artificielle et peuvent être laissés de côté ici.
Tous les autres que les données personnelles potentielles sont donc sans intérêt pour une DSFA. À ce propos, il convient de noter que un point de données non-personnel peut être considéré comme personnel s'il se trouve en même temps avec un point de données personnel et qu'une connaissance des deux points de données est simultanément disponible auprès du même responsable. Voir à cet égard l'exemple des cookies, qui sont considérés comme personnels en raison de leur contact avec l'adresse IP.
Comme déjà mentionné, il s'agit de nouvelles technologies dans les systèmes d'intelligence artificielle. Il faut donc examiner cela plus en détail selon la réglementation juridique. Cela a également du sens, car lorsque quelque chose de nouveau est introduit, on n'avait pas traité auparavant la question de savoir si une DSFA doit être établie ou non.
Dans Art. 35 Abs. 3 RGPD, des cas sont mentionnés dans lesquels une DSFA doit être établie. Ces cas sont résumés ci-dessous:
- Évaluation systématique et exhaustive des aspects personnels de personnes physiques, y compris le profiling.
- Traitement approfondi de catégories particulières de données à caractère personnel (opinions politiques, données de santé etc.), voir Art. 9 al. 1 DGSV.
- Surveillance systématique et exhaustive des espaces publics accessibles au grand public.
Pour tous les systèmes, il faut procéder à une DSFA si l'un de ces cas est donné et que les autres conditions sont remplies, dont le risque pour les personnes concernées… Prenez par exemple la logiciel de conférence vidéo Zoom. Zoom écrit dans ses conditions d'utilisation (valables à partir du 07.08.2023, mise à jour: 10.08.2023):
Ils s'entendent à ce que Zoom accède, utilise, recueille, crée, modifie, distribue, traite, transmet, entretient et stocke les données générées par le service pour tout usage, dans la mesure où c'est conforme au droit en vigueur, notamment à des fins de développement du produit et du service, de marketing, d'analyse, de contrôle qualité, d'apprentissage automatique ou d'intelligence artificielle (y compris à des fins d'entraînement et d'affinage d'algorithme et de modèle) …
Extrait des conditions d'utilisation de Zoom, en gras par moi.
Comme il est indiqué, toutes les données provenant de conférences vidéo organisées avec Zoom peuvent être utilisées par Zoom à des fins quasi arbitraires et de manière quasi arbitraire. Les images vidéo des participants aux conférences vidéo sont également comprises dans cela, ainsi que les mots dits ou les transcriptions de ces mots. La transmission ou l'utilisation ultérieure des transcriptions et des autres données est autorisée par Zoom selon ces conditions. Zoom a apporté une modification après avoir été mis en pression par le public, qui prévoit que les données des clients ne seront utilisées qu'après accord pour la formation d'intelligence artificielle. Cependant, Zoom se réserve le droit d'utiliser les données des clients sans leur consentement à de nombreuses autres fins, notamment le marketing et l'apprentissage automatique ! Voir également les commentaires en fin d'article.
Zoom mentionne dans les conditions des applications de l'intelligence artificielle. Quel que soit le cas, cela ne joue probablement pas de rôle pour la question d'une DSFA.
Voici les cas 1 et 2 des trois cas mentionnés à l'article 35, paragraphe 3 du RGPD. Il est évident que dans les conférences vidéo, on peut également faire connaître ou discuter des aspects personnels. On pense seulement à la planification de temps et aux vacances qui pourraient être prévues, l'entretien des enfants ou des problèmes de santé. Cela ouvre donc aussi le cas 2.
Il est apparemment que Zoom traite des données très en masse et aussi de manière systématique. La traitement systématique peut probablement être attribué à toutes les traitements numériques au début, jusqu'à ce qu'on ait prouvé le contraire. Pour cela, il faudrait probablement une DSFA.
Lorsque Zoom est un fournisseur en provenance d'ailleurs que de l'Europe, il faut identifier tous les recepteurs de données et leurs pays. Cela doit se produire de toute façon et n'est pas un sujet spécifique à une DSFA. Pour chaque pays, il faut vérifier si les droits et libertés des personnes y sont garantis en vertu du RGPD. Même chose qui ne constitue pas un sujet spécifique d'une DSFA. Mais si ces informations sont déjà disponibles et que les pays ne sont pas seulement l'Allemagne ou ceux de l'Europe, alors il faudrait leur donner la priorité. Il semble soit peu d'effort pour établir une DSFA pour chaque pays, soit beaucoup d'effort. Peu d'effort épargne la discussion sur une DSFA, car la discussion prend plus de temps que l'écriture. Beaucoup d'effort justifie directement une DSFA, car là où il y a de nombreuses questions ouvertes, une évaluation des conséquences en matière de protection des données doit être considérée comme appropriée.
Les systèmes d'intelligence artificielle peuvent particulièrement affecter les droits et libertés des personnes. C'est en raison de l'article 35, paragraphe 1 de la RGPD. Comme le montre ChatGPT, les dépenses de la AI peuvent conduire à une grande crédibilité sur demande du utilisateur. L'utilisateur voit le résultat et est souvent enthousiasmé par la qualité linguistique et les conclusions de la AI. Cela conduit également à ce que des résultats faux ou fausses soient considérés comme argent comptant.
Systèmes de AI génératifs, qui traitent des données personnelles et ne minimisent pas la pseudonymisation, sont donc particulièrement sensibles à gérer. Ici, il me semble qu'une DSFA (Déclaration de Sécurité des Données) est toujours appropriée. Même pour les objectifs de recherche jugés pertinents, une DSFA doit être effectuée. Qu'est-ce qui se passerait si le résultat révélait quelles personnes ont eu ou ont encore une certaine maladie ? Si l'ensemble des personnes concernées est très petit et très fiable, il faudrait enregistrer cela par écrit, ce qui constitue à nouveau un bon endroit pour une DSFA.
Systèmes qui doivent soutenir la décision concernant l'aptitude d'une personne, sont également à considérer de manière particulière. Ce processus de profilage influence en effet des parcours de vie. Il ne peut pas se dérouler sans une autre sécurisation. Une partie de cette sécurisation est un DSFA. Quel que soit le fait qu'un tel système soit ou non une intelligence artificielle, cela joue aucune ou une seule rôle secondaire.
Recommandations
Il est préférable d'avoir une DSFA (Déclaration de Sécurité des Données à caractère personnel) si elle n'est pas nécessaire. Pour éviter une DSFA, il convient d'utiliser uniquement des systèmes compatibles avec la protection des données. Dans ce cas, une DSFA peut être établie rapidement. Au lieu de discuter longuement de la nécessité de quelque chose, on peut simplement l'écrire rapidement.
Les systèmes AI en particulier ne devraient pas être utilisés par des tiers peu fiables lorsqu'il s'agit de données personnelles ou d'autres informations sensibles telles que des brevets, des secrets commerciaux ou autres données confidentielles. Je considère par exemple OpenAI avec ChatGPT comme peu fiable. On ne sait pas très bien ce qui se passe avec les données là-bas. Même Microsoft et Google ne sont pas pour moi des tiers fiables. Ils utilisent toutes sortes de données à leurs propres fins.
Une évaluation des risques aide également à l'évaluation de savoir si un système est amical avec les données ou non.
Amélioration des données englobe toutes les sortes de données qui sont traitées automatiquement.
Comment des systèmes de IA propres à l'entreprise peuvent être mis en place, j'ai par exemple décrit ici:
- Recherche de documents avec IA
- Systèmes d'intelligence artificielle propres à l'entreprise
- Exemples d'application typiques pour les systèmes de IA locales
Lorsqu'une DSFA doit être établie pour un fournisseur de plusieurs services mis en œuvre, une hiérarchie de documents peut être utilisée. Cela suggère également l'article 35, alinéa 1, dernier alinéa du RGPD.
- Master-Documents: Évaluations générales sur le fournisseur et ses sous-traitants de traitement des données.
- Document de détail pour le service: Réfère au document principal et évalue les détails spécifiques au service.
Une DSFA peut d'abord être établie de manière très approximative, ce qui peut ne pas nécessiter beaucoup d'efforts. Un exemple est mentionné ci-dessous. Si cette Courte DSFA donne lieu à une étude plus approfondie, il faudra y consacrer plus d'efforts.
Pour un système de IA comme ChatGPT, une DSFA pourrait se dérouler comme suit: En résumé, c'est le schéma d'évaluation basé sur des nombres qui est appelé "classique". Les chiffres ne sont pas expliqués ici et sont seulement à titre d'exemple.
Exemple: Évaluation des risques pour ChatGPT pour la recherche de documents
L'hypothèse pour l'exemple est que des données d'employés d'une entreprise sont saisies dans ChatGPT sous forme de document, contre lequel des questions sont posées qui ChatGPT devra répondre. Cela se fait également sous la dénomination Question Answering Task ou plus spécifiquement comme Ask You Document Task. Le document est pseudonymisé automatiquement avant cela. Des erreurs peuvent bien sûr survenir, ce qui sera mis en valeur dans cet exemple.
La évaluation des risques suivante est une partie d'une DSFA complète. Une DSFA complète est alors nécessaire lorsque le risque pour les personnes concernées n'est pas faible ou suffisamment élevé. Dans Wikipedia, le contenu requis d'une DSFA est donné comme suit (représenté ci-dessous de manière légèrement abrégée et avec des remarques à la fin de chaque point):
- Description systématique des opérations de traitement prévues et des finalités du traitement. → Devrait déjà être connu via Art. 12 RGPD.
- Évaluation de la nécessité et de la proportionnalité des traitements en fonction de leur finalité. → Partiellement donnée par cette analyse de risque mentionnée à titre d'exemple, partiellement aussi (de force) connue depuis Art. 12 RGPD.
- Évaluation des risques pour les droits et libertés des personnes concernées. → Voir l'évaluation du risque mentionnée comme partie d'une DSA complète.
- Mesures d'assistance en cas de risque élevé. → Si le risque évalué n'est pas faible, il faudrait poursuivre dans cette direction.
Commenceons par la probabilité de découverte. C'est la probabilité pour qu'un individu remarque que une violation des données à caractère personnel s'est produite. Je choisis l'échelle des nombres de 1 à 10, où 1 est la plus élevée (c'est-à-dire la plus grande) probabilité de découverte. Lorsque les employés sont correctement formés, ils reconnaîtront rapidement une violation et la signaleront probablement souvent (sauf si quelqu'un trouve ChatGPT très agréable et ne souhaite pas le dénoncer). Je choisis donc la valeur 4. En effet, il n'est pas possible à tous les utilisateurs d'analyser l'output d'un chatbot pour savoir s'il contient des données à caractère personnel. Surtout, les données à caractère personnel ne sont pas toujours faciles à reconnaître. De plus, de grandes sorties de texte peuvent conduire à ce que tout ne soit pas lu, mais plutôt copié et collé aveuglément dans un rapport public.
La probabilité d'entrée est la probabilité selon laquelle un incident de protection des données se produit. La valeur 1 représente le meilleur scénario, c'est-à-dire des incidents très rares ou peut-être jamais survenus. Que l'événement se produise semble très probable dans l'exemple de scénario. Après tout, des centaines de documents pourraient être examinés chaque jour. La fonction d'automatisation de la pseudonymisation ne peut pas fonctionner parfaitement. Je choisis donc le valeur 8.
La Gravité de l'événement indique dans quelle mesure un incident de protection des données pénètre dans les droits et libertés des personnes. Elle dépend dans cet exemple du type d'informations sur le personnel en question. Si il s'agit d'heures perdues au travail, dont la connaissance est souvent assimilée à celle des données de santé, alors la gravité serait sans doute avec une valeur 8 pas trop basse. Mais même l'évaluation du rendement des employés justifierait un tel classement. Peu s'en fallut probablement pour que les choses soient encore pires, du point de vue des employés.
Lorsque l'on multiplie la probabilité de découverte, la probabilité d'entrée et l'importance de l'événement, on obtient un chiffre compris entre 1 et 1000. La valeur 1 serait obtenue si tous les trois critères avaient été évalués avec la meilleure note possible, soit 1. La valeur 1000 est le résultat de 10 x 10 x 10, le scénario le plus catastrophique imaginable.
Une évaluation des risques en tant que partie d'une analyse des conséquences sur la protection des données est toujours une bonne idée. Soit elle est rapidement réalisée. Soit elle soulève de nouvelles questions. Dans tous les cas, il devient clair ensuite si l'utilisation d'un système numérique apparaît sensé ou non du point de vue de la protection des données ou en général à partir des données.
Dans l'exemple, on obtient un valeur de 4 x 8 x 8 = 256 dans le cadre d'une évaluation des risques. Maintenant, chaque responsable doit se poser la question de savoir à partir de quel seuil des mesures particulières doivent être décrites pour traiter l'événement de manière appropriée et rapide. Une telle mesure pourrait être au moins l'interdiction temporaire d'utiliser ChatGPT ou de l'utiliser sans restriction.
Je vois la valeur 200 ou peut-être aussi 250 comme seuil, à partir duquel il faudrait réfléchir à l'élaboration de plans d'urgence ou de mesures de secours.
L'établissement d'une évaluation des risques conduit en tout cas pour ChatGPT dans le cas d'utilisation "Recherche de documents d'entreprise pouvant contenir des données d'employés" à considérer que ChatGPT n'est pas utilisable pour ce cas d'utilisation. Les destinataires des données ne sont pas seulement les personnes au sein de l'entreprise ou potentiellement dans la sphère publique, mais aussi OpenAI, Microsoft et tous les sous-traitants de sous-traitance.
Une DSFA devrait donc au moins être effectuée à un niveau de multiplication de trois nombres comme évaluation des risques. Lorsqu'un seuil est dépassé, il convient de réfléchir à d'autres investigations. Une mauvaise valeur parle souvent aussi contre l'utilisation d'un système. Cela rend la DSFA alors caduque, qui a bien servi pour la prise de décision.
Une évaluation des risques peut à nouveau se dérouler de manière schématique. Pour de nombreux services, une grande partie de l'évaluation peut se dérouler d'une manière ou d'une autre similaire ou semblable, avec peut-être d'autres valeurs pour les critères de risque. L'effort nécessaire me semble généralement pas très élevé ou même très faible.
Résumé
La portée d'une DSFA dépend de l'importance du risque pour les personnes concernées par un système. Pour les systèmes d'intelligence artificielle des tiers, je considère la prise en compte du risque comme une partie intégrante d'une DSFA nécessaire. Pour les propres systèmes d'intelligence artificielle, il suffit de multiplier trois nombres pour savoir si l'extension est nécessaire ou non. En général, la plupart des systèmes d'intelligence artificielle internes sont sans danger, à moins qu'ils ne servent à l'évaluation des employés, des données de santé, etc. Des considérations juridiques supplémentaires en dehors d'une DSFA n'en sont pas toujours nécessaires. Il faut donc clarifier la provenance et le type des données d'entrée ainsi que la base légale du traitement des données.
Source qu'elle soit, la DSFA menée par le délégué à la protection des données ou par le responsable est secondaire, bien que principalement pertinente pour les DSB dans la pratique.
Une DSFA complète nécessite comme travail supplémentaire "seulement" la conception de mesures d'atténuation et de plans d'urgence. Tous les autres contenus nécessaires sont déjà donnés par Article 12 RGPD et une évaluation des risques toujours sensée, souvent rapidement effectuée
La question de l'évaluation des conséquences sur la protection des données se pose moins souvent lorsque des systèmes propres ou amicaux aux données sont utilisés et que le risque peut être rapidement considéré comme faible. Lorsqu'il s'agit de systèmes propres, en particulier de systèmes AI appartenant à l'entreprise, la question des flux et des destinataires de données ne se pose pas. Ils sont connus et peuvent être limités à volonté.
Chez les services de confiance douteux, tels que Microsoft, Google ou Zoom, une DSFA pourrait être utilisée par fournisseur, qui serait peut-être «seulement» complétée par des détails spécifiques pour chaque service ou plugin utilisé.
Une DSFA réduit le risque mais pas, en raison de l'utilisation illégale des services ou des plugins, à recevoir une plainte, mise en garde ou poursuite. Avec les systèmes respectueux de la vie privée, on peut économiser beaucoup d'efforts et augmenter considérablement la sécurité juridique. Il faut souvent simplement vouloir. Des alternatives existent pour de nombreux cas d'utilisation à profusion.
En fin de compte, quelques aspects importants résumés:
- Une évaluation des risques est toujours utile et souvent nécessaire à considérer comme telle.
- Les informations obligatoires de Art. 12 RGPD doivent en tout cas être fournies. Qu'elles soient destinées à la DSFA ou créées en raison des droits des personnes concernées, cela est secondaire. Le coût des informations obligatoires ne peut donc en aucun cas être imputé à la DSFA.
- Les garanties générales que les responsables doivent établir en vertu de Article 5 du RGPD, sont indépendantes d'une DSFA. Elles doivent être fournies pour toutes les traitements de données possibles. Exemple: Un mot de passe sûr pour un accès à ChatGPT. Une politique de mots de passe générale devrait en principe exister dans l'entreprise.
- Les garanties spécifiques par service doivent également être fournies et n'ont rien à voir avec une DSFA. Motiv: Les services moins risqués ne nécessitent pas de DSFA. Cependant, il devrait y avoir une garantie pour ces derniers, comme la sécurité du traitement.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
