Veel mensen eisen de regeling van AI-toepassingen op. Massadaten voor het trainen van AI-modellen zouden personenbezige gegevens idealiter niet meer moeten bevatten, zelfs als deze afkomstig zijn uit openbare bronnen. Dit eist bijvoorbeeld de Bondsdienst voor de bescherming van persoonsgegevens. Wat betekent dat voor de praktijk?
Inleiding
Een AI-model is een elektronisch brein, dat een neurale netwerk vertegenwoordigt. De verbindingen tussen de neuronen vertegenwoordigen kennis, helemaal analog naar het menselijk brein. De kennis wordt ingevoerd door het lezen van miljoenen of miljarden van online beschikbare documenten. Tot deze documenten behoren vooral websites.
In veel van deze teksten, die in AI-modellen worden ingevoerd, zijn personenbezige gegevens aanwezig. Deze gegevens belanden zo in de trainingsgegevens van een kunstmatige intelligentie. Meer nog: uitgaven die een chatbot op basis van deze trainingsgegevens gegenereert, kunnen deze personenbezige gegevens eveneens bevatten.
Het lijkt problematisch uit het oogpunt van sommigen, zoals de Bondsbevoegde voor Informatiebescherming in Duitsland, dat deze persoonsgebonden gegevens terecht komen in AI-modellen. Uit deze gegevens in AI-modellen volgen zich op grond van het recht meerdere vragen:
- Is de gegevenshouder (de betrokken persoon) akkoord met het feit dat zijn persoonsgegevens in een bepaald AI-model terecht komen? Preciezer (zolang geen toestemmingsplicht aanwezig is):
- Hoe kan een gegevenshouder zijn gegevens tegen het gebruik in AI-modellen blokkeren (opt-out)?
- Hoe kunnen data uit een al bestaand AI-model later verwijderd worden?
Uit deze vragen ontstaan een reeks problemen in de praktijk, die hierna worden besproken.
Wanneer zijn persoonsgegevens aanwezig?
Of een gegevenswaarde persoongerelateerd is of niet, kan vaak niet of niet betrouwbaar worden vastgesteld. Een mens herkent mogelijk eigennamen van personen vaak als zodanig, maar helemaal zeker niet altijd. Een machine (AI) kan dit nog slechter doen.
Persoonlijk gegevens zoals namen of postadressen kunnen door machines in principe niet betrouwbaar worden geïdentificeerd.
Ob een Rijksbewijsplaatkenmerk, een telefoonnummer of een bedrijfsnaam persoonlijk zijn, weet niemand (behalve een intieme kennis van het Kfz, de telefoonnummer of het bedrijf). Een machine kan dus ook niet weten of „Maier Ltd.“ een persoonsgegeven is. De naam van een Ltd. is namelijk persoonlijk wanneer direct of indirect op een persoon kan worden geraadpleegd (zie Artikel 4 Nr. 1 GDPR). Een Ltd. met één medewerker is kennelijk persoonlijk. De naam van een Ltd. met 50 medewerkers is kennelijk niet persoonlijk. Wanneer de naam van een Ltd. met 50 medewerkers echter wordt genoemd in combinatie met een medewerker die 1,98 meter lang is („de grootste medewerker van ons bedrijf“), dan is deze gecombineerde opgave van bedrijfsnaam en lengte van een medewerker als persoonlijk te beschouwen.
Geautomatiseerd kunnen gegevens nooit betrouwbaar als persoonsgebonden of niet-persoonsgebonden ingedeeld worden.
Algoritmes dragen dus altijd aanzienlijke onzekerheden bij bij het herkennen van persoonsgegevens.
Bijzonder bij het vorige voorbeeld wordt duidelijk dat niemand en niets betrouwbaar kan aanzien of data persoonsgebonden zijn of niet. Ook een telefoonnummer kan niemand direct beoordelen of het toebehoort aan een persoon of aan een bedrijf en of het bedrijf uit één persoon bestaat of uit meerdere personen.
Hoe kunnen data tegen gebruik in AI-modellen geblokkeerd worden?
De korte antwoord is: Geen enkel. In ieder geval is dit de huidige stand van zaken. Er bestaat gewoon geen standaard, om data op websites te beschermen tegen toegang door anderen. Het lezen van een openbare website is duidelijk altijd mogelijk. Precies dat is het doel van een website: ze moet zo breed mogelijk toegankelijk zijn voor de publieke opinie. Robotprogramma's (Crawler, Scanner) kunnen nauwelijks worden onderscheiden van een menselijke lezer. Veel websites hebben zelfs niet de mogelijkheid om dit op technische wijze te proberen. Dat is het huidige standpunt van de techniek.
De enige actuele praktische optie is het gebruik van de robots.txt bestand. Dit bestand stelt webbeheerders in staat om te definiëren welke zoekmachines toegang tot hun inhoud mogen hebben en welke niet. Inmiddels wordt dit bestand ook door sommige AI-toepassingen die inhoud scannen, gerespecteerd.
Het afsluiten van eigen gegevens tegen gebruik in AI-modellen is technisch niet mogelijk.
Tot op heden en voorlopig nog.
Veel AI-toepassingen interesseren zich echter helemaal niet voor deze robots.txt bestand of enige vorm van uitsluitingswensen van website-eigenaren. Bovendien gaat het om wensen en niet om technisch harde definities. Ook al zegt ChatGPT bijvoorbeeld dat het de wensen van een webpagina betreffende het blokkeren van inhoud tegen AI-gebruik door ChatGPT respecteert, is dit een puur vertrouwenskwestie. Wie OpenAI en ChatGPT nog steeds vertrouwt, zou zich moeten herinneren:
- Italiës privacybevoegdheid heeft ChatGPT verboden omdat OpenAI data blijkbaar onrechtmatig opgeslagen had, bijvoorbeeld inloggegevens.
- OpenAI heeft hier niet om een toestemming van de gebruiker gevraagd, maar wel een afmeldmogelijkheid (opt-out) aangeboden.
- OpenAI wint nu met ChatGPT Enterprise en de voorkeur "Get enterprise-grade security & privacy". Dat betekent vertaald: "We houden ons alleen aan gegevensbeschermingsregels als u de Enterprise-versie koopt".
Wie het zijn de bedrijven OpenAI, Google of Microsoft vertrouwen wanneer een berichtje van geruststelling verschijnt, terwijl deze bedrijven eerder al veel bedenkelijk gedrag hebben getoond, handelt in ieder geval niet rationeel, maar wensgetrieben.
Gegevens van Crawling-databases zoals The Pile of Common Crawl of C4 handelen eerst onafhankelijk van ChatGPT, worden vervolgens echter door ChatGPT en andere AI-modellen voor het trainen van grote taalmodellen toegevoegd. Zo wordt uit een probleem een meervoudig probleem, namelijk per gegevenslezer.
Hoe worden data uit een bestaand AI-model verwijderd?
De korte antwoord is: Geen enkel. Er bestaat nog geen wiskundig proces waarmee data uit een AI-model kunnen worden verwijderd (of überhaupt).
De enige manier om data uit een bestaand AI-model te wissen, is het model wegwerken
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks




My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
