Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Konstgjord intelligens: Personuppgifter i kognitiva modeller

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Många kräver reglering av kognitiv artificiell intelligens-användning. Massdata för träning av kognitiva modeller ska i idealfall inte innehålla personuppgifter, även om dessa kommer från offentliga källor. Det kräver till exempel den federala dataskyddsofficeren. Vad innebär det i praktiken?

Inledning

Ett AI-modell är ett elektroniskt hjärna, som representerar ett neuralt nätverk. Anslagningen mellan neuronerna representerar kunskap, precis analogt till det mänskliga hjärnan. Kunskapen läses in via att läsa av miljarder eller miljarder av online tillgängliga dokument. Till dessa dokument hör särskilt webbsidor.

I många av dessa texter, som inflyter i AI-modeller, finns personuppgifter. Dessa uppgifter landar således i utbildningsdata för en artificiell intelligens. Ännu mer: Utgifter, som ett chattbot genererar på grundval av dessa utbildningsdata, kan också innehålla personuppgifter.

Det som uppkommer från att dessa personuppgifter hamnar i AI-modeller är ett problem enligt vissa, bland annat Tysklands förbundsombudsman för dataskydd. Från dessa data i AI-modellerna uppstår grundläggande frågor:

  1. Är datägaren (den berörda personen) medveten om att deras personuppgifter hamnar i ett visst AI-modell? Mer exakt (så länge det inte finns någon skyldighet att inhämta samtycke):
  2. Hur kan en dataägare spärra sina data för användning i kognitiva modeller (opt-out)?
  3. Hur kan data från ett redan existerande AI-modell raderas senare?

Från dessa frågor uppstår en rad problem i praktiken som diskuteras nedan.

När förekommer personuppgifter?

Om en datavärde är personbehörig eller inte kan ofta inte eller inte påliteligt fastställas. En människa känner kanske igen egennamn av personer som sådana, men det är inte alltid säkert. En maskin (AI) kan uppnå detta ännu sämre.

Personuppgifter som namn eller postadresser kan i princip inte identifieras tillförlitigt av maskiner.

Om ett Kfz-kennzeichen, en telefonnummer eller ett företagsnamn är personuppgiftsrelaterat, vet ingen (utom en nära bekant till Kfz, telefonnumret eller företaget). En maskin kan därför inte veta om "Maier Ltd." är en personuppgiftsvärde. Företagsnamnet är nämligen personuppgiftsrelaterat när man direkt eller indirekt kan dra slutsatsen att det gäller en specifik person (se Artikel 4 Nr. 1 GDPR). En enskilda ägda Ltd. är tydligt personuppgiftsrelaterad. Företagsnamnet på en Ltd. med 50 anställda är tydligt inte personuppgiftsrelaterat. Men om man nämner företagsnamnet i samband med en anställd som mäter 1,98 meter (”den största anställde hos oss”), så är den kombinerade uppgiften av företagsnamn och måttuppgift på en anställd att betrakta som personuppgiftsrelaterad.

Automatiserat kan data aldrig i sin helhet klassificeras som tillförlitligt personuppgifts- eller icke-personuppgiftsinhämtande.

Algoritmer innehåller alltså alltid betydande osäkerheter vid identifiering av personuppgifter.

Särskilt i det föregående exemplet blir det tydligt att ingen och ingenting kan betraktas som tillförlitliga data, om de är personuppgifter eller inte. Även en telefonnummer kan ingen direkt avgöra om den hör till en person eller ett företag och om företaget består av en person eller flera.

Hur kan data spärras för användning i AI-modeller?

Den korta svaret är: Inte alls. I alla fall är detta den nuvarande situationen. Det finns helt enkelt inget standard, för att skydda data på webbplatser från obehörig åtkomst. Att läsa en offentlig webbplats är uppenbart alltid möjligt. Precis detta är syftet med en webbplats: den ska vara tillgänglig för så breda som möjliga allmänhet. Robotprogram (Crawler, Scanner) kan knappt skiljas från ett mänskligt läsare. Många webbplatser har inte möjligheten att tekniskt försöka detta på något sätt. Så mycket till dagens tekniska standard.

Den enda nu praktiska gångenbara vägen är att använda sig av robots.txt filen. Denna fil tillåter webbplatsägare att definiera vilka sökmotorer som får åtkomst till deras innehåll och vilka inte. I dag respekterar även några AI-applikationer, som granskar innehåll, denna fil.

Det är tekniskt inte möjligt att spärra av egna data mot användning i AI-modeller.

För tillfället och framöver.

Många AI-användningar intresserar sig dock inte alls för denna robots.txt fil eller webbplatsägarnas önskemål om att exkludera dem. Det handlar dessutom om önskemål och inte om tekniskt hårddefinierade definitioner. Även om ChatGPT till exempel säger att det respekterar webbplatsens önskemål om att spärra innehåll mot AI-användning av ChatGPT, är detta en ren förtroendefråga. Vem som helst som fortfarande har förtroende för OpenAI och ChatGPT borde känna till fakta:

  1. Italiens dataskyddsförvaltning har förbjudit ChatGPT eftersom OpenAI uppenbarligen lagligt sparade användardata, till exempel inmatningar.
  2. OpenAI har inte heller begärt medgivande från användaren utan endast erbjudit en avvisningsmöjlighet (opt-out).
  3. OpenAI lockar nu med ChatGPT Enterprise och förmånen "Får enterprise-grade säkerhet & integritet". Därmed betyder det: "Vi håller bara på Datenschutzregler, när ni köper Enterprise-versionen".

Om man tror på företag som OpenAI, Google eller Microsoft så snart en lugnande rapport kommer ut, trots att dessa företag tidigare har visat ett märkligt beteende, handlar det i alla fall inte rationellt, utan Oönskad.

Data från crawlande databaser som The Pile eller Common Crawl eller C4 agerar dessutom ursprungligen oberoende av ChatGPT, men tas sedan in i ChatGPT och andra AI-modeller för att träna stora språkmodeller. Så blir ett problem till ett flerfaldigt problem, nämligen per dataläsare.

Hur tas data bort från ett befintligt AI-system?

Den korta svaret är: Inte alls. I varje fall finns det ännu inget matematiskt förfarande med vilket data från ett AI-modell kan raderas (eller överhuvudtaget) med chirurgisk precision.

Det enda sättet att ta bort data från ett befintligt AI-modell är att kasta bort modellen och träna om den helt från början. När man tränar om tar man inte med de data som ska tas bort i det nya träningsuppsättningen.

Data kan inte raderas från ett befintligt AI-modell.

För tillfället och framöver.

Klingt extrem komplicerat och dyrt. Precis det är det också. Ett AI-modell från noll till att träna upp, är särskilt för stora språkmodeller extremt tidskrävande, mycket dyrt och tar en känslomässig evighet, även på enorma serverfarmar. En AI-server förbrukar mycket ström och är mycket dyr, eftersom den minst en mycket dyr eller flera dyra grafikkort samtidigt använder för att kunna utföra de annars extremt långsamma beräkningarna inom acceptabel tid.

En praktisk men oärlig metod att få ut data från ett kognitivt system är att jaga svaret från modellen genom en filter, som sedan tar bort alla förekomster av ett visst namn eller telefonnummer. Detta är dock inte tillförlitligt. Data finns även när de är i modellen men inte visas i svaret. Likadant gäller det för e-post från en tidigare kontakt, som vill ha sina data raderade men som ändå inte har blivit raderade. När en tillsyns- eller brottsbekämpande myndighet senast kontrollerar systemet, vilket sannolikt bara sker i ovanliga fall, eller vid nästa dataläcka på grund av ett hackerangrepp kommer dilemmat att synas för alla.

Vad förändras genom AI egentligen?

Sökmotorer ger redan länge också ut svar från lästa innehåll. Dessa svar är säkert även ibland inte förenliga med verkligheten. Häröver har sig i alla fall ännu ingen dataskyddmyndighet upprört, såvitt känt.

AI-drivna chattrobotar kan ge svar i ny form, som kallas abstraktivitet. Istället för ett citat får användaren en text på nya ord. Här kan det speciellt lätt uppstå fel- eller falskangivelser.

I sociala medier är antalet falska uppgifter som skadas av personer dock inte alls lågt heller. Därför kan den särskilda oro som uppstått på grund av AI inte helt förstås. Nuvarande uttalanden går lite i riktning mot aktivism.

För att rädda ansiktet för många av dem som nämns, att det okända ("den artificiella intelligensen") tycks föra många in i en ärlig oro så att de definitivt vill göra något mot detta. Att från detta uppstår önskningar som inte är genomförbara är analogt till § 26 TDDDG, som dock dikterades av lobbyister och blev lag.

Kontrollen över egna data

I praktiken har ingen teknisk kontroll över sina egna data, när de kan hamna i främmande händer, till exempel genom publicering på en webbplats eller genom att använda/besitta data på en social medieplattform.

Sannolikt menar den förbundsdatasäkerhetsombud med kontrollen över sina egna data att han talar om specifika plattformar där en person som dataägare har ett konto. Denna situation är viktig och relevant, men har ingenting särskilt med AI att göra. Naturligtvis ska alla personuppgifter bara behandlas i enlighet med GDPR, oavsett om det sker genom AI eller på annat sätt.

Sammanfattning

Personuppgifter kan inte pålitligt identifieras som sådana. Inga människor lyckas med det och heller inte maskiner. Detta kommer att vara så för alltid, om inte definitionen av Artikel 4 § 1 GDPR, som definierar vad personuppgifter är, ändras.

Data kan inte spärras mot användning i AI-modeller. Detta problem skulle vara rent juridiskt lösbart. Tekniskt är det aldrig säkert att lösa. Istället måste man förlita sig på att crawlare respekterar webbplatsens villkor (önskemål!). Där är det nästan säkrare att förlita sig på Microsoft, trots de omfattande säkerhetsluckor som företaget skapat, ignorerat och nedtonat.

Konstgjord intelligens kan inte tillfredsställande regleras, oavsett hur önskvärd det är.

Önskningar ändrar inte de objektivt givna gränserna för verkligheten.

Data kan inte raderas från befintliga AI-modeller. Detta problem skulle kunna lösas teoretiskt sett. Det verkar mer sannolikt att AI-modellerna snart bara kommer att återberäknas, så fort hårdvaran respektive grafikkortschip (GPU) blivit betydligt snabbare och billigare.

Sammandrag

Önskan om reglering av AI är förståelig. Den leder dock till krav som är ogenomförbara och praktiskt taget omöjliga att uppfylla. Om detta accepteras, antingen för att skapa intrycket att politiska skyldigheter uppfylls eller av okunskap, ska lämnas öppet.

När det gäller personuppgifter kan man inte fatta ett generellt beslut. Kanske hjälper en intergalaktisk analys?

En konstgjord intelligens beter sig i och för sig som en människa. Människor är vanligtvis orediga. Man märker det senast vid nästa schemabeslutande. Även så kallade experter kommer ofta till felaktiga eller dåliga resultat. Varför skulle det vara annorlunda med ett datorprogram som efterbildar intelligenzfunktionen hos människan?

Istället för att ställa allmänt ogenomförbara krav, kunde man börja med att noggrant och konsekvent sanktionera mycket stora företag. Från de vunna insikterna kan sedan ytterligare åtgärder dras.

Oavsett vilken typ av zukünftige regler för marknadsbeteende som gäller, ska noteras att de enorma potentialerna, oavsett om det är positivt eller negativt, från AI-användningar inte kan hejdas. Varje person kan när som helst bygga upp ett AI-modell under sitt skrivbord eller ladda ner och använda ett befintligt. Det skulle vara ytterst kontraproduktivt om dessa AI-modeller fick användas över hela världen, utom i Tyskland eller EU.

Computer-generiertes Bild
Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Konstgjord intelligens för tolkning av rättsliga texter