Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Artificiële intelligentie: Persoonsgegevens in AI-modellen

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel als PDF (alleen voor abonnees van de nieuwsbrief)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Veel mensen eisen de regeling van AI-toepassingen op. Massadaten voor het trainen van AI-modellen zouden personenbezige gegevens idealiter niet meer moeten bevatten, zelfs als deze afkomstig zijn uit openbare bronnen. Dit eist bijvoorbeeld de Bondsdienst voor de bescherming van persoonsgegevens. Wat betekent dat voor de praktijk?

Inleiding

Een AI-model is een elektronisch brein, dat een neurale netwerk vertegenwoordigt. De verbindingen tussen de neuronen vertegenwoordigen kennis, helemaal analog naar het menselijk brein. De kennis wordt ingevoerd door het lezen van miljoenen of miljarden van online beschikbare documenten. Tot deze documenten behoren vooral websites.

In veel van deze teksten, die in AI-modellen worden ingevoerd, zijn personenbezige gegevens aanwezig. Deze gegevens belanden zo in de trainingsgegevens van een kunstmatige intelligentie. Meer nog: uitgaven die een chatbot op basis van deze trainingsgegevens gegenereert, kunnen deze personenbezige gegevens eveneens bevatten.

Het lijkt problematisch uit het oogpunt van sommigen, zoals de Bondsbevoegde voor Informatiebescherming in Duitsland, dat deze persoonsgebonden gegevens terecht komen in AI-modellen. Uit deze gegevens in AI-modellen volgen zich op grond van het recht meerdere vragen:

  1. Is de gegevenshouder (de betrokken persoon) akkoord met het feit dat zijn persoonsgegevens in een bepaald AI-model terecht komen? Preciezer (zolang geen toestemmingsplicht aanwezig is):
  2. Hoe kan een gegevenshouder zijn gegevens tegen het gebruik in AI-modellen blokkeren (opt-out)?
  3. Hoe kunnen data uit een al bestaand AI-model later verwijderd worden?

Uit deze vragen ontstaan een reeks problemen in de praktijk, die hierna worden besproken.

Wanneer zijn persoonsgegevens aanwezig?

Of een gegevenswaarde persoongerelateerd is of niet, kan vaak niet of niet betrouwbaar worden vastgesteld. Een mens herkent mogelijk eigennamen van personen vaak als zodanig, maar helemaal zeker niet altijd. Een machine (AI) kan dit nog slechter doen.

Persoonlijk gegevens zoals namen of postadressen kunnen door machines in principe niet betrouwbaar worden geïdentificeerd.

Ob een Rijksbewijsplaatkenmerk, een telefoonnummer of een bedrijfsnaam persoonlijk zijn, weet niemand (behalve een intieme kennis van het Kfz, de telefoonnummer of het bedrijf). Een machine kan dus ook niet weten of „Maier Ltd.“ een persoonsgegeven is. De naam van een Ltd. is namelijk persoonlijk wanneer direct of indirect op een persoon kan worden geraadpleegd (zie Artikel 4 Nr. 1 GDPR). Een Ltd. met één medewerker is kennelijk persoonlijk. De naam van een Ltd. met 50 medewerkers is kennelijk niet persoonlijk. Wanneer de naam van een Ltd. met 50 medewerkers echter wordt genoemd in combinatie met een medewerker die 1,98 meter lang is („de grootste medewerker van ons bedrijf“), dan is deze gecombineerde opgave van bedrijfsnaam en lengte van een medewerker als persoonlijk te beschouwen.

Geautomatiseerd kunnen gegevens nooit betrouwbaar als persoonsgebonden of niet-persoonsgebonden ingedeeld worden.

Algoritmes dragen dus altijd aanzienlijke onzekerheden bij bij het herkennen van persoonsgegevens.

Bijzonder bij het vorige voorbeeld wordt duidelijk dat niemand en niets betrouwbaar kan aanzien of data persoonsgebonden zijn of niet. Ook een telefoonnummer kan niemand direct beoordelen of het toebehoort aan een persoon of aan een bedrijf en of het bedrijf uit één persoon bestaat of uit meerdere personen.

Hoe kunnen data tegen gebruik in AI-modellen geblokkeerd worden?

De korte antwoord is: Geen enkel. In ieder geval is dit de huidige stand van zaken. Er bestaat gewoon geen standaard, om data op websites te beschermen tegen toegang door anderen. Het lezen van een openbare website is duidelijk altijd mogelijk. Precies dat is het doel van een website: ze moet zo breed mogelijk toegankelijk zijn voor de publieke opinie. Robotprogramma's (Crawler, Scanner) kunnen nauwelijks worden onderscheiden van een menselijke lezer. Veel websites hebben zelfs niet de mogelijkheid om dit op technische wijze te proberen. Dat is het huidige standpunt van de techniek.

De enige actuele praktische optie is het gebruik van de robots.txt bestand. Dit bestand stelt webbeheerders in staat om te definiëren welke zoekmachines toegang tot hun inhoud mogen hebben en welke niet. Inmiddels wordt dit bestand ook door sommige AI-toepassingen die inhoud scannen, gerespecteerd.

Het afsluiten van eigen gegevens tegen gebruik in AI-modellen is technisch niet mogelijk.

Tot op heden en voorlopig nog.

Veel AI-toepassingen interesseren zich echter helemaal niet voor deze robots.txt bestand of enige vorm van uitsluitingswensen van website-eigenaren. Bovendien gaat het om wensen en niet om technisch harde definities. Ook al zegt ChatGPT bijvoorbeeld dat het de wensen van een webpagina betreffende het blokkeren van inhoud tegen AI-gebruik door ChatGPT respecteert, is dit een puur vertrouwenskwestie. Wie OpenAI en ChatGPT nog steeds vertrouwt, zou zich moeten herinneren:

  1. Italiës privacybevoegdheid heeft ChatGPT verboden omdat OpenAI data blijkbaar onrechtmatig opgeslagen had, bijvoorbeeld inloggegevens.
  2. OpenAI heeft hier niet om een toestemming van de gebruiker gevraagd, maar wel een afmeldmogelijkheid (opt-out) aangeboden.
  3. OpenAI wint nu met ChatGPT Enterprise en de voorkeur "Get enterprise-grade security & privacy". Dat betekent vertaald: "We houden ons alleen aan gegevensbeschermingsregels als u de Enterprise-versie koopt".

Wie het zijn de bedrijven OpenAI, Google of Microsoft vertrouwen wanneer een berichtje van geruststelling verschijnt, terwijl deze bedrijven eerder al veel bedenkelijk gedrag hebben getoond, handelt in ieder geval niet rationeel, maar wensgetrieben.

Gegevens van Crawling-databases zoals The Pile of Common Crawl of C4 handelen eerst onafhankelijk van ChatGPT, worden vervolgens echter door ChatGPT en andere AI-modellen voor het trainen van grote taalmodellen toegevoegd. Zo wordt uit een probleem een meervoudig probleem, namelijk per gegevenslezer.

Hoe worden data uit een bestaand AI-model verwijderd?

De korte antwoord is: Geen enkel. Er bestaat nog geen wiskundig proces waarmee data uit een AI-model kunnen worden verwijderd (of überhaupt).

De enige manier om data uit een bestaand AI-model te wissen, is het model wegwerken

Ganzen Artikel jetzt über kostenfreien Dr. DSGVO Newsletter lesen.
Weitere Extras für Abonnenten:
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
Schon Abonnent? Link im Newsletter anklicken & diese Seite auffrischen.
Newsletter abonnieren
Computer-generiertes Bild
Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Analytics als effectief hulpmiddel voor cybercrime-datalekken