Veel mensen eisen de regeling van AI-toepassingen op. Massadaten voor het trainen van AI-modellen zouden personenbezige gegevens idealiter niet meer moeten bevatten, zelfs als deze afkomstig zijn uit openbare bronnen. Dit eist bijvoorbeeld de Bondsdienst voor de bescherming van persoonsgegevens. Wat betekent dat voor de praktijk?
Inleiding
Een AI-model is een elektronisch brein, dat een neurale netwerk vertegenwoordigt. De verbindingen tussen de neuronen vertegenwoordigen kennis, helemaal analog naar het menselijk brein. De kennis wordt ingevoerd door het lezen van miljoenen of miljarden van online beschikbare documenten. Tot deze documenten behoren vooral websites.
In veel van deze teksten, die in AI-modellen worden ingevoerd, zijn personenbezige gegevens aanwezig. Deze gegevens belanden zo in de trainingsgegevens van een kunstmatige intelligentie. Meer nog: uitgaven die een chatbot op basis van deze trainingsgegevens gegenereert, kunnen deze personenbezige gegevens eveneens bevatten.
Het lijkt problematisch uit het oogpunt van sommigen, zoals de Bondsbevoegde voor Informatiebescherming in Duitsland, dat deze persoonsgebonden gegevens terecht komen in AI-modellen. Uit deze gegevens in AI-modellen volgen zich op grond van het recht meerdere vragen:
- Is de gegevenshouder (de betrokken persoon) akkoord met het feit dat zijn persoonsgegevens in een bepaald AI-model terecht komen? Preciezer (zolang geen toestemmingsplicht aanwezig is):
- Hoe kan een gegevenshouder zijn gegevens tegen het gebruik in AI-modellen blokkeren (opt-out)?
- Hoe kunnen data uit een al bestaand AI-model later verwijderd worden?
Uit deze vragen ontstaan een reeks problemen in de praktijk, die hierna worden besproken.
Wanneer zijn persoonsgegevens aanwezig?
Of een gegevenswaarde persoongerelateerd is of niet, kan vaak niet of niet betrouwbaar worden vastgesteld. Een mens herkent mogelijk eigennamen van personen vaak als zodanig, maar helemaal zeker niet altijd. Een machine (AI) kan dit nog slechter doen.
Persoonlijk gegevens zoals namen of postadressen kunnen door machines in principe niet betrouwbaar worden geïdentificeerd.
Ob een Rijksbewijsplaatkenmerk, een telefoonnummer of een bedrijfsnaam persoonlijk zijn, weet niemand (behalve een intieme kennis van het Kfz, de telefoonnummer of het bedrijf). Een machine kan dus ook niet weten of „Maier Ltd.“ een persoonsgegeven is. De naam van een Ltd. is namelijk persoonlijk wanneer direct of indirect op een persoon kan worden geraadpleegd (zie Artikel 4 Nr. 1 GDPR). Een Ltd. met één medewerker is kennelijk persoonlijk. De naam van een Ltd. met 50 medewerkers is kennelijk niet persoonlijk. Wanneer de naam van een Ltd. met 50 medewerkers echter wordt genoemd in combinatie met een medewerker die 1,98 meter lang is („de grootste medewerker van ons bedrijf“), dan is deze gecombineerde opgave van bedrijfsnaam en lengte van een medewerker als persoonlijk te beschouwen.
Geautomatiseerd kunnen gegevens nooit betrouwbaar als persoonsgebonden of niet-persoonsgebonden ingedeeld worden.
Algoritmes dragen dus altijd aanzienlijke onzekerheden bij bij het herkennen van persoonsgegevens.
Bijzonder bij het vorige voorbeeld wordt duidelijk dat niemand en niets betrouwbaar kan aanzien of data persoonsgebonden zijn of niet. Ook een telefoonnummer kan niemand direct beoordelen of het toebehoort aan een persoon of aan een bedrijf en of het bedrijf uit één persoon bestaat of uit meerdere personen.
Hoe kunnen data tegen gebruik in AI-modellen geblokkeerd worden?
De korte antwoord is: Geen enkel. In ieder geval is dit de huidige stand van zaken. Er bestaat gewoon geen standaard, om data op websites te beschermen tegen toegang door anderen. Het lezen van een openbare website is duidelijk altijd mogelijk. Precies dat is het doel van een website: ze moet zo breed mogelijk toegankelijk zijn voor de publieke opinie. Robotprogramma's (Crawler, Scanner) kunnen nauwelijks worden onderscheiden van een menselijke lezer. Veel websites hebben zelfs niet de mogelijkheid om dit op technische wijze te proberen. Dat is het huidige standpunt van de techniek.
De enige actuele praktische optie is het gebruik van de robots.txt bestand. Dit bestand stelt webbeheerders in staat om te definiëren welke zoekmachines toegang tot hun inhoud mogen hebben en welke niet. Inmiddels wordt dit bestand ook door sommige AI-toepassingen die inhoud scannen, gerespecteerd.
Het afsluiten van eigen gegevens tegen gebruik in AI-modellen is technisch niet mogelijk.
Tot op heden en voorlopig nog.
Veel AI-toepassingen interesseren zich echter helemaal niet voor deze robots.txt bestand of enige vorm van uitsluitingswensen van website-eigenaren. Bovendien gaat het om wensen en niet om technisch harde definities. Ook al zegt ChatGPT bijvoorbeeld dat het de wensen van een webpagina betreffende het blokkeren van inhoud tegen AI-gebruik door ChatGPT respecteert, is dit een puur vertrouwenskwestie. Wie OpenAI en ChatGPT nog steeds vertrouwt, zou zich moeten herinneren:
- Italiës privacybevoegdheid heeft ChatGPT verboden omdat OpenAI data blijkbaar onrechtmatig opgeslagen had, bijvoorbeeld inloggegevens.
- OpenAI heeft hier niet om een toestemming van de gebruiker gevraagd, maar wel een afmeldmogelijkheid (opt-out) aangeboden.
- OpenAI wint nu met ChatGPT Enterprise en de voorkeur "Get enterprise-grade security & privacy". Dat betekent vertaald: "We houden ons alleen aan gegevensbeschermingsregels als u de Enterprise-versie koopt".
Wie het zijn de bedrijven OpenAI, Google of Microsoft vertrouwen wanneer een berichtje van geruststelling verschijnt, terwijl deze bedrijven eerder al veel bedenkelijk gedrag hebben getoond, handelt in ieder geval niet rationeel, maar wensgetrieben.
Gegevens van Crawling-databases zoals The Pile of Common Crawl of C4 handelen eerst onafhankelijk van ChatGPT, worden vervolgens echter door ChatGPT en andere AI-modellen voor het trainen van grote taalmodellen toegevoegd. Zo wordt uit een probleem een meervoudig probleem, namelijk per gegevenslezer.
Hoe worden data uit een bestaand AI-model verwijderd?
De korte antwoord is: Geen enkel. Er bestaat nog geen wiskundig proces waarmee data uit een AI-model kunnen worden verwijderd (of überhaupt).
De enige manier om data uit een bestaand AI-model te wissen, is het model wegwerken en het helemaal opnieuw trainen. Bij het opnieuw trainen worden de data die voor verwijderd zijn, niet meer meegenomen in het trainingproces.
Uit een bestaand AI-model kunnen data niet verwijderd worden.
Tot op heden en voorlopig nog.
Klinkt extreem complex en duur. Precies dat is het ook. Een AI-model van nul op te trainen, is vooral voor grote taalmodellen extreem tijdrovend, heel duur en duurt een gevoelde eeuwigheid, zelfs op gigantische serverfarms. Een AI-server verbruikt heel veel stroom en is heel duur, omdat het minstens één heel dure of meerdere dure grafische kaarten tegelijk gebruikt om de anders extreem langzame berekeningen in aanvaardbare tijd af te wikkelen.
Een pragmatische, maar onsmakelijke manier om data uit een AI-systeem officieel te krijgen is de antwoord van het model door een filter te jagen. Het filter verwijdert dan alle voorkomens van een bepaald persoonsnaam of telefoonnummer. Dit is echter niet betrouwbaar mogelijk. Bovendien zijn data ook aanwezig als ze in het model zijn, maar niet als antwoord worden gegeven. Zoals bij de e-mail van een oude contactpersoon die wilde dat zijn data werden verwijderd, maar deze nog steeds aanwezig waren. Bij de volgende controle door een toezicht- of opsporingsinstantie (die zeker niet vaak zal voorkomen) of bij het volgende datalek als gevolg van een hack-aanval wordt het dilemma dan voor iedereen zichtbaar.
Wat verandert zich door kunstmatige intelligentie eigenlijk?
Zoekmachines geven al langer ook antwoorden uit ingelezen inhoud. Deze antwoorden zijn zeker ook regelmatig niet in overeenstemming met de feiten. Hierover heeft zich tenminste nog geen toezichthouder op het gebied van privacy bekommerd, zo ver is bekend.
AI-getreven chatbots kunnen antwoorden geven in een nieuwe vorm, wat als abstraherend wordt omschreven. In plaats van een citaat krijgt de gebruiker een tekst in nieuwe woorden. Hierbij kunnen vooral gemakkelijk fout- of valsangaben ontstaan.
In sociale media is de hoeveelheid onjuiste informatie over personen echter ook niet bijzonder laag. Daarom kan de opwinding die ontstaan is vanwege AI niet helemaal worden begrepen. Huidige uitspraken gaan een beetje in de richting van actiegericht zijn.
Om de eer van velen te redden, wordt opgemerkt dat het onbekende ("de AI") kennelijk veel mensen in een legitieme bezorgdheid brengt, zodat ze er onmiskenbaar iets tegen willen doen. Dat daaruit wensen ontstaan die niet uitvoerbaar zijn, is analoog aan § 26 TDDDG, die echter door lobbyisten in het wetboek is opgenomen.
Controle over eigen gegevens
In feite heeft niemand de technische controle over zijn eigen gegevens, zodra deze in vreemde handen kunnen komen, bijvoorbeeld door publicatie op een website of door het gebruiken/beschikbaar stellen van de gegevens op een social media platform.
Waarschijnlijk bedoelt de bondsdetective met de controle over eigen gegevens de gebruikmaking ervan in AI-modellen op specifieke platforms, waarop een persoon als gegevenshouder een account heeft. Deze situatie is weliswaar relevant en belangrijk, maar heeft niets te maken met AI in het bijzonder. Uiteraard dienen alle persoonlijke gegevens alleen volgens de GDPR verwerkt worden, ofwel door middel van AI of anderszins.
Samenvatting
Persoonsgebonden gegevens kunnen niet betrouwbaar als zodanig worden geïdentificeerd. Ook een mens noch een machine weet dit te doen. Dit zal tot in alle eeuwigheid zo blijven, tenzij de definitie van Artikel 4 lid 1 GDPR, die bepaalt wat persoonsgebonden gegevens zijn, verandert.
Gegevens kunnen niet tegen hun gebruik in AI-modellen worden geblokkeerd. Dit probleem zou volledig juridisch op te lossen zijn. Technisch is het nooit veilig op te lossen. In plaats daarvan moet men zich vertrouwd voelen met de feit dat crawlers de voorwaarden (wensen!) van een website respecteren. Daarbij is het bijna veiliger om zich te verlaten op Microsoft, ondanks de enorme beveiligingslekken die het bedrijf heeft veroorzaakt en genegeerd heeft.
Kunstmatige intelligentie kan niet voldoende gereguleerd worden, hoe verlangens ook zijn.
Wensen veranderen de objectieve grenzen van de werkelijkheid niet.
Gegevens kunnen niet uit bestaande AI-modellen verwijderd worden. Dit probleem zou theoretisch op te lossen zijn. Het lijkt waarschijnlijker dat AI-modellen binnenkort "gewoon" opnieuw berekend zullen worden, zodra de hardware of grafische kaartschips (GPUs) nog veel sneller en nog veel goedkoper geworden zijn.
Conclusie
De wens naar regulering van AI is begrijpelijk. Hij leidt echter tot eisen die onuitvoerbaar en in de praktijk niet haalbaar zijn. Of dit wordt geaccepteerd om de indruk te wekken dat politieke verplichtingen worden nagekomen ofwel het is onwetendheid, laat ik daarover voorlopig in het midden.

Een kunstmatige intelligentie gedraagt zich van nature als een mens. Mensen zijn gewoonlijk onbetrouwbaar. Dat merkt men spijtig genoeg bij de volgende afspraakbevestiging. Ook zogenaamde experten komen vaak tot foutieve of slechte resultaten. Waarom zou het dan anders moeten zijn bij een computerprogramma, dat de intelligenzfunktie van de mens naibildt?
In plaats van onhaalbare eisen te stellen, kunnen eerst grote bedrijven grondig onder de loep genomen en consequent, snel en pijnlijk gesanctioneerd worden. Uit de verkregen inzichten kunnen vervolgstappen getrokken worden.
Ongeacht de soort toekomstige regels voor marktgedrag is opgemerkt dat het enorme potentieel, ofwel positief of negatief, van AI-toepassingen niet meer te stoppen zijn. Iedereen kan elk moment onder zijn bureau een AI-model bouwen of een bestaand downloaden en gebruiken. Het zou uitgesproken contraproductief zijn als deze AI-modellen over de hele wereld mochten worden gebruikt, behalve in Duitsland of de EU.




My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
