Hur kan en användare förhindra att sina data används i AI-modeller?

Det finns för närvarande ingen pålitlig metod för att fullständigt skydda data från webbplatser innan den används i AI-modeller. robots.txt-filen respekteras, men många AI-applikationer ignorerar den eller andra undantag.

Vilket problem ställer datamärkning som personligt eller ej personligt?

Den automatiska klassificeringen av data som personuppgifter eller ej personuppgifter är inte alltid möjlig på grund av osäkerheter i algoritmer och svårigheten att identifiera egna namn på ett tillförlitligt sätt. Detta leder till osäkerhet kring efterlevnaden av dataskyddsförordningen.

Vad är den nuvarande situationen gällande användningen av data av AI-modeller?

KI-modeller tränas för närvarande främst genom att läsa in miljoner dokument från internet, varav många kan innehålla personuppgifter. Det finns inget sätt att tekniskt förhindra detta, och många applikationer respekterar inte webbplatsägares undantagönemål.

Kan jag säkert radera data från en befintlig AI-modell?

Nej, det är för närvarande inte möjligt att radera data från en AI-modell. Modellerna är konstruerade så att data lagras permanent och kan användas för träning. Det finns inget sätt att ta bort data kirurgiskt.

Hur fungerar filtreringen av svar från AI-modeller exakt?

KI-modeller använder filter för att ta bort specifika informationer, som till exempel namn eller telefonnummer, från sina svar. Dock är denna filtrering inte alltid pålitlig och data kan förekomma även om den inte direkt anges.

Varför är det problematiskt att AI-modeller lär sig av personliga data?

KI-modeller lär sig av enorma datamängder som ofta innehåller personlig information. Detta väcker frågor om användares samtycke till denna användning av sina data, vilket kan leda till allvarliga integritetsproblem.

Kan personuppgifter på ett pålitligt sätt raderas från AI-modeller?

Nej, data kan inte på ett tillförlitligt sätt raderas från AI-modeller. Detta innebär att information som tidigare lagrats i modellerna potentiellt fortfarande kan hämtas och användas, vilket förvärrar integritetsfrågan.

Varför kritiseras en strikt reglering av AI-modeller?

Kraven om strikt reglering av AI-modeller anses vara orealistiska och opraktiska. Den breda spridningen av AI-modeller globalt sett gör det nästintill omöjligt att fullt ut kontrollera och begränsa dem.

Sichere KI, digitaler Datenschutz & Website-Compliance

Många kräver reglering av kognitiv artificiell intelligens-användning. Massdata för träning av kognitiva modeller ska i idealfall inte innehålla personuppgifter, även om dessa kommer från offentliga källor. Det kräver till exempel den federala dataskyddsofficeren. Vad innebär det i praktiken?

Inledning

Ett AI-modell är ett elektroniskt hjärna, som representerar ett neuralt nätverk. Anslagningen mellan neuronerna representerar kunskap, precis analogt till det mänskliga hjärnan. Kunskapen läses in via att läsa av miljarder eller miljarder av online tillgängliga dokument. Till dessa dokument hör särskilt webbsidor.

I många av dessa texter, som inflyter i AI-modeller, finns personuppgifter. Dessa uppgifter landar således i utbildningsdata för en artificiell intelligens. Ännu mer: Utgifter, som ett chattbot genererar på grundval av dessa utbildningsdata, kan också innehålla personuppgifter.

Det som uppkommer från att dessa personuppgifter hamnar i AI-modeller är ett problem enligt vissa, bland annat Tysklands förbundsombudsman för dataskydd. Från dessa data i AI-modellerna uppstår grundläggande frågor:

Är datägaren (den berörda personen) medveten om att deras personuppgifter hamnar i ett visst AI-modell? Mer exakt (så länge det inte finns någon skyldighet att inhämta samtycke):
Hur kan en dataägare spärra sina data för användning i kognitiva modeller (opt-out)?
Hur kan data från ett redan existerande AI-modell raderas senare?

Från dessa frågor uppstår en rad problem i praktiken som diskuteras nedan.

När förekommer personuppgifter?

Om en datavärde är personbehörig eller inte kan ofta inte eller inte påliteligt fastställas. En människa känner kanske igen egennamn av personer som sådana, men det är inte alltid säkert. En maskin (AI) kan uppnå detta ännu sämre.

Personuppgifter som namn eller postadresser kan i princip inte identifieras tillförlitigt av maskiner.

Om ett Kfz-kennzeichen, en telefonnummer eller ett företagsnamn är personuppgiftsrelaterat, vet ingen (utom en nära bekant till Kfz, telefonnumret eller företaget). En maskin kan därför inte veta om "Maier Ltd." är en personuppgiftsvärde. Företagsnamnet är nämligen personuppgiftsrelaterat när man direkt eller indirekt kan dra slutsatsen att det gäller en specifik person (se Artikel 4 Nr. 1 GDPR). En enskilda ägda Ltd. är tydligt personuppgiftsrelaterad. Företagsnamnet på en Ltd. med 50 anställda är tydligt inte personuppgiftsrelaterat. Men om man nämner företagsnamnet i samband med en anställd som mäter 1,98 meter (”den största anställde hos oss”), så är den kombinerade uppgiften av företagsnamn och måttuppgift på en anställd att betrakta som personuppgiftsrelaterad.

Automatiserat kan data aldrig i sin helhet klassificeras som tillförlitligt personuppgifts- eller icke-personuppgiftsinhämtande.
Algoritmer innehåller alltså alltid betydande osäkerheter vid identifiering av personuppgifter.

Särskilt i det föregående exemplet blir det tydligt att ingen och ingenting kan betraktas som tillförlitliga data, om de är personuppgifter eller inte. Även en telefonnummer kan ingen direkt avgöra om den hör till en person eller ett företag och om företaget består av en person eller flera.

Hur kan data spärras för användning i AI-modeller?

Den korta svaret är: Inte alls. I alla fall är detta den nuvarande situationen. Det finns helt enkelt inget standard, för att skydda data på webbplatser från obehörig åtkomst. Att läsa en offentlig webbplats är uppenbart alltid möjligt. Precis detta är syftet med en webbplats: den ska vara tillgänglig för så breda som möjliga allmänhet. Robotprogram (Crawler, Scanner) kan knappt skiljas från ett mänskligt läsare. Många webbplatser har inte möjligheten att tekniskt försöka detta på något sätt. Så mycket till dagens tekniska standard.

Den enda nu praktiska gångenbara vägen är att använda sig av robots.txt filen. Denna fil tillåter webbplatsägare att definiera vilka sökmotorer som får åtkomst till deras innehåll och vilka inte. I dag respekterar även några AI-applikationer, som granskar innehåll, denna fil.

Det är tekniskt inte möjligt att spärra av egna data mot användning i AI-modeller.
För tillfället och framöver.

Många AI-användningar intresserar sig dock inte alls för denna robots.txt fil eller webbplatsägarnas önskemål om att exkludera dem. Det handlar dessutom om önskemål och inte om tekniskt hårddefinierade definitioner. Även om ChatGPT till exempel säger att det respekterar webbplatsens önskemål om att spärra innehåll mot AI-användning av ChatGPT, är detta en ren förtroendefråga. Vem som helst som fortfarande har förtroende för OpenAI och ChatGPT borde känna till fakta:

Italiens dataskyddsförvaltning har förbjudit ChatGPT eftersom OpenAI uppenbarligen lagligt sparade användardata, till exempel inmatningar.
OpenAI har inte heller begärt medgivande från användaren utan endast erbjudit en avvisningsmöjlighet (opt-out).
OpenAI lockar nu med ChatGPT Enterprise och förmånen "Får enterprise-grade säkerhet & integritet". Därmed betyder det: "Vi håller bara på Datenschutzregler, när ni köper Enterprise-versionen".

Om man tror på företag som OpenAI, Google eller Microsoft så snart en lugnande rapport kommer ut, trots att dessa företag tidigare har visat ett märkligt beteende, handlar det i alla fall inte rationellt, utan Oönskad.

Data från crawlande databaser som The Pile eller Common Crawl eller C4 agerar dessutom ursprungligen oberoende av ChatGPT, men tas sedan in i ChatGPT och andra AI-modeller för att träna stora språkmodeller. Så blir ett problem till ett flerfaldigt problem, nämligen per dataläsare.

Hur tas data bort från ett befintligt AI-system?

Den korta svaret är: Inte alls. I varje fall finns det ännu inget matematiskt förfarande med vilket data från ett AI-modell kan raderas (eller överhuvudtaget) med chirurgisk precision.

Det enda sättet att ta bort data från ett befintligt AI-modell är att kasta bort modellen och träna om den helt från början. När man tränar om tar man inte med de data som ska tas bort i det nya träningsuppsättningen.

Data kan inte raderas från ett befintligt AI-modell.
För tillfället och framöver.

Klingt extrem komplicerat och dyrt. Precis det är det också. Ett AI-modell från noll till att träna upp, är särskilt för stora språkmodeller extremt tidskrävande, mycket dyrt och tar en känslomässig evighet, även på enorma serverfarmar. En AI-server förbrukar mycket ström och är mycket dyr, eftersom den minst en mycket dyr eller flera dyra grafikkort samtidigt använder för att kunna utföra de annars extremt långsamma beräkningarna inom acceptabel tid.

En praktisk men oärlig metod att få ut data från ett kognitivt system är att jaga svaret från modellen genom en filter, som sedan tar bort alla förekomster av ett visst namn eller telefonnummer. Detta är dock inte tillförlitligt. Data finns även när de är i modellen men inte visas i svaret. Likadant gäller det för e-post från en tidigare kontakt, som vill ha sina data raderade men som ändå inte har blivit raderade. När en tillsyns- eller brottsbekämpande myndighet senast kontrollerar systemet, vilket sannolikt bara sker i ovanliga fall, eller vid nästa dataläcka på grund av ett hackerangrepp kommer dilemmat att synas för alla.

Vad förändras genom AI egentligen?

Sökmotorer ger redan länge också ut svar från lästa innehåll. Dessa svar är säkert även ibland inte förenliga med verkligheten. Häröver har sig i alla fall ännu ingen dataskyddmyndighet upprört, såvitt känt.

AI-drivna chattrobotar kan ge svar i ny form, som kallas abstraktivitet. Istället för ett citat får användaren en text på nya ord. Här kan det speciellt lätt uppstå fel- eller falskangivelser.

I sociala medier är antalet falska uppgifter som skadas av personer dock inte alls lågt heller. Därför kan den särskilda oro som uppstått på grund av AI inte helt förstås. Nuvarande uttalanden går lite i riktning mot aktivism.

För att rädda ansiktet för många av dem som nämns, att det okända ("den artificiella intelligensen") tycks föra många in i en ärlig oro så att de definitivt vill göra något mot detta. Att från detta uppstår önskningar som inte är genomförbara är analogt till § 26 TDDDG, som dock dikterades av lobbyister och blev lag.

Kontrollen över egna data

I praktiken har ingen teknisk kontroll över sina egna data, när de kan hamna i främmande händer, till exempel genom publicering på en webbplats eller genom att använda/besitta data på en social medieplattform.

Sannolikt menar den förbundsdatasäkerhetsombud med kontrollen över sina egna data att han talar om specifika plattformar där en person som dataägare har ett konto. Denna situation är viktig och relevant, men har ingenting särskilt med AI att göra. Naturligtvis ska alla personuppgifter bara behandlas i enlighet med GDPR, oavsett om det sker genom AI eller på annat sätt.

Sammanfattning

Personuppgifter kan inte pålitligt identifieras som sådana. Inga människor lyckas med det och heller inte maskiner. Detta kommer att vara så för alltid, om inte definitionen av Artikel 4 § 1 GDPR, som definierar vad personuppgifter är, ändras.

Data kan inte spärras mot användning i AI-modeller. Detta problem skulle vara rent juridiskt lösbart. Tekniskt är det aldrig säkert att lösa. Istället måste man förlita sig på att crawlare respekterar webbplatsens villkor (önskemål!). Där är det nästan säkrare att förlita sig på Microsoft, trots de omfattande säkerhetsluckor som företaget skapat, ignorerat och nedtonat.

Konstgjord intelligens kan inte tillfredsställande regleras, oavsett hur önskvärd det är.
Önskningar ändrar inte de objektivt givna gränserna för verkligheten.

Data kan inte raderas från befintliga AI-modeller. Detta problem skulle kunna lösas teoretiskt sett. Det verkar mer sannolikt att AI-modellerna snart bara kommer att återberäknas, så fort hårdvaran respektive grafikkortschip (GPU) blivit betydligt snabbare och billigare.

Sammandrag

Önskan om reglering av AI är förståelig. Den leder dock till krav som är ogenomförbara och praktiskt taget omöjliga att uppfylla. Om detta accepteras, antingen för att skapa intrycket att politiska skyldigheter uppfylls eller av okunskap, ska lämnas öppet.

När det gäller personuppgifter kan man inte fatta ett generellt beslut. Kanske hjälper en intergalaktisk analys?

En konstgjord intelligens beter sig i och för sig som en människa. Människor är vanligtvis orediga. Man märker det senast vid nästa schemabeslutande. Även så kallade experter kommer ofta till felaktiga eller dåliga resultat. Varför skulle det vara annorlunda med ett datorprogram som efterbildar intelligenzfunktionen hos människan?

Istället för att ställa allmänt ogenomförbara krav, kunde man börja med att noggrant och konsekvent sanktionera mycket stora företag. Från de vunna insikterna kan sedan ytterligare åtgärder dras.

Oavsett vilken typ av zukünftige regler för marknadsbeteende som gäller, ska noteras att de enorma potentialerna, oavsett om det är positivt eller negativt, från AI-användningar inte kan hejdas. Varje person kan när som helst bygga upp ett AI-modell under sitt skrivbord eller ladda ner och använda ett befintligt. Det skulle vara ytterst kontraproduktivt om dessa AI-modeller fick användas över hela världen, utom i Tyskland eller EU.

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.