Hvordan kan en bruger forhindre, at deres data bruges i AI-modeller?

Der er i øjeblikket ingen pålidelig metode til at beskytte data fra websteder fuldstændigt, før de bruges i AI-modeller. robots.txt-filen respekteres, men mange AI-applikationer ignorerer den eller andre udelukkelser.

Hvilket problem rejser datatildelingen som personfølsom eller ikke-personfølsom?

Automatisk klassificering af data som med eller uden personoplysninger er ikke altid mulig på grund af usikkerheder i algoritmer og vanskeligheden ved pålideligt at identificere navne. Dette fører til usikkerhed i forhold til overholdelsen af databeskyttelsesbestemmelser.

Hvad er den aktuelle situation med hensyn til brugen af data af AI-modeller?

KI-modeller trænes i øjeblikket primært ved at indlæse millioner af dokumenter fra internettet, hvor mange af disse dokumenter kan indeholde personfølsomme data. Der er ingen måde at forhindre dette teknisk, og mange applikationer respekterer ikke webudvikleres udelukkelser.

Kan jeg sikkert slette data fra en eksisterende AI-model?

Nej, det er i øjeblikket ikke muligt at slette data fra en AI-model. Modellerne er designet, så data lagres permanent og kan bruges til træning. Der findes ingen metode til at fjerne data kirurgisk.

Hvordan fungerer filtrering af svar fra AI-modeller præcist?

KI-modeller bruger filtre til at fjerne bestemte oplysninger, såsom navne eller telefonnumre, fra deres svar. Dog er denne filtrering ikke altid pålidelig, og data kan stadig være til stede, selvom de ikke udtrykkes direkte.

Hvorfor er det problematisk, at AI-modeller lærer af personlige data?

KI-modeller lærer ud fra enorme datasæt, der ofte indeholder personlige oplysninger. Dette rejser spørgsmål om brugernes samtykke til denne brug af deres data, hvilket kan føre til betydelige databeskyttelsesproblemer.

Kan personlige data pålideligt slettes fra AI-modeller?

Nej, data kan ikke pålideligt slettes fra AI-modeller. Det betyder, at oplysninger, der tidligere var gemt i modellerne, potentielt stadig kan hentes og bruges, hvilket forværrer databeskyttelsesproblematikken.

Hvorfor kritiseres en streng regulering af AI-modeller?

Kraven om en streng regulering af AI-modeller betragtes som urealistiske og upraktiske. Den brede udbredelse af AI-modeller globalt gør en fuldstændig kontrol og begrænsning næsten umulig.

Kunstig intelligens: Persondata i AI-modeller

Mange kræver regulering af AI-anvendelser. Masseoplysninger til træning af AI-modeller skal i idealfald ikke længere indeholde personlige oplysninger, selv om disse stammer fra offentlige kilder. Det kræver f.eks. den føderale dataskyddsforsker. Hvad betyder det for praksissen?

Indledning

Et AI-modul er et elektronisk hjerne, der repræsenterer et neuralt netværk. Forbindelserne mellem neuronerne repræsentere viden, helt analogt til det menneskelige hjerne. Viden indlæses via indsammenlæsning af millioner eller milliarder af online fri tilgængelige dokumenter. Til disse dokumenter hører især hjemmesider.

I mange af disse tekster, der træder ind i AI-modeller, er personlige oplysninger til stede. Disse data lander således på træningsdata for en kunstig intelligens. Endnu mere: Udgivelser, som en chatbot genererer på basis af disse træningsdata, kan også indeholde personlige oplysninger.

Det synes problematiskt fra nogle menneskers synspunkt, såsom den tyske Bundesdatenschutzbeauftragte, at disse personlige data lander i AI-modeller. Fra disse data i AI-modeller følger der grundlæggende flere spørgsmål:

Er dataejer (den pårørende person) enig i, at hans personlige oplysninger kommer til at være indeholdt i et bestemt AI-model? Præcist (så længe der ikke er en pligt til at få samtykke):
Hvordan kan en dataejere afskære sin data fra brug i AI-modeller (opt-out)?
Hvordan kan data fra et allerede eksisterende AI-model slettes efterfølgende?

Fra disse spørgsmål opstår en række praktiske problemer, som bliver diskuteret nedenfor.

Når forekommer persondata?

Om en dataværdi er personbevis eller ej kan meget ofte ikke eller ikke pålideligt fastslås. En mand kan muligvis genkende egennavne af mennesker ofte som sådan, men helt sikkert aldrig. En maskine (AI) kan dette endnu værre gøre.

Direkte personrelaterede oplysninger som navne eller postadresser kan i princippet ikke pålideligt identificeres af maskiner.

Hvis et Køretøjskendemærke, en telefonnummer eller en virksomhedsnavn er personbevidst, vedkender ingen (bortset fra en dybt kendskabsfuld til Kfz, telefonnummeret eller virksomheden). En maskine kan derfor heller ikke vide, om „Maier Ltd.“ er et personbevidst dataværdi. Navnet på en virksomhed er nemlig personbevidst, hvis man direkte eller indirekte kan føre til en person (se Art. 4 Nr. 1 GDPR). En en-mands-virksomhed er åbenbart personbevidst. Navnet på en virksomhed med 50 ansatte er åbenbart ikke personbevidst. Hvis man dog nævner navnet på en virksomhed med 50 ansatte i forbindelse med et ansat, der måler 1,98 meter („den største ansat i vores virksomhed“), så er denne kombinerede oplysning af virksomhedsnavn og mål til en ansat at betragte som personbevidst.

Automatiserede data kan aldrig i hele sin omfang tilføjes med tillid som persondata eller ikke-persondata.
Algoritmer indeholder derfor alltid betydelige usikkerheder ved erkendelse af persondata.

Særligt i det foregående eksempel bliver det tydeligt, at ingen og intet kan være sikker på, om data er personrelaterede eller ej. Man kan heller ikke direkte se, om en telefonnummer tilhører en person eller en virksomhed og om virksomheden består af én person eller flere.

Hvordan kan data blokkes mod brug i AI-modeller?

Den korte svar er: Nej. I hvert fald er dette den nuværende situation. Der findes simpelthen ingenting, som kan bruges til at beskytte data på hjemmesider mod fremmed adgang. At læse en offentlig hjemmeside er åbenlyst altid muligt. Præcis det samme er formålet med en hjemmeside: Den skal være tilgængelig for så mange mennesker som muligt. Robotprogrammer (Crawler, Scanner) kan næsten ikke skelnes fra et menneskeligt læser. Mange hjemmesider har ikke muligheden for at prøve dette på nogen måde teknisk. Så meget til den nuværende stand af teknologien.

Den eneste nuværende praktikable vej er at bruge robots.txt filen. Denne fil tillader webstedsejere at definere, hvilke søgemaskiner der må tilgå deres indhold og hvilke ikke. I mellemtiden respekterer nogle AI-applikationer også denne fil, når de graver indhold.

Det er teknisk ikke muligt at blokere egne data mod brug i AI-modeller.
For tiden og fremover.

Mange AI-applikationer interesserer sig dog ikke for denne robots.txt fil eller nogen ønsker fra hjemmesideejer om at blive unddraget. Derudover drejer det sig om ønsker og ikke om teknisk hårddefinerede definitioner. Selvom ChatGPT f.eks. siger, at det respekterer hjemmesidens ønske om at blokkege hjemmesiden mod AI-brug af ChatGPT, er dette en ren tillids sag. Hvem endnu tror på OpenAI og ChatGPT, skal huske de faktiske fakta:

Italiens dataskutzmyndighed har forbudt ChatGPT, fordi OpenAI synes at have gemt data ulovligt, fx brugerindgivelser.
OpenAI har ikke blot en samtykke fra brugeren indhentet, men snarere tilbydet en mulighed for at afvise (Opt-Out).
OpenAI tilbyder nu med ChatGPT Enterprise og den fordel "Få enterprise-graderet sikkerhed & privatliv". Dvs.: "Vi følger kun dataskyddsbestemmelserne, hvis du køber Enterprise-versionen".

Hvis man tror på selskaber som OpenAI, Google eller Microsoft, så snart en melding om beroligelse kommer frem, selvom disse selskaber tidligere har vist sig at være usikre, så handler det ikke rationelt, men Ungdommelig.

Data fra krawling-databaser som The Pile eller Common Crawl eller C4 agerer desuden oprindelig uafhængigt af ChatGPT, men bliver så tilføjet af ChatGPT og andre AI-modeller til træning af store sprogmodeller. Sådan bliver et problem til en flere-gang-problem, nemlig for hver data-læser.

Hvordan bliver data fra et eksisterende AI-model slettet?

Den korte svar er: Nej. Der findes i øjeblikket ingen matematisk fremgangsmåde, hvorved data kan slettes fra et AI-model med kirurgisk præcision (eller overhovedet).

Der aktuell einzige Weg, om at slette data fra et eksisterende AI-model, består i at kassere modellen og træne den helt fra bunden igen. Ved genoptræningen bliver de til at slette data ikke længere taget i betragtning.

Fra et eksisterende AI-model kan data ikke slettes.
For tiden og fremover.

Lyder meget kompleks og dyrt. Præcis det er også. Et AI-model fra null til at træne, er især for store sprogmodeller meget tidssvær, meget dyr og tager en følelsesmæssig evighed, selv på enorme serverfarme. En AI-server forbruger meget strøm og er meget dyr, fordi den mindst bruger en meget dyre eller flere dyre grafikkort samtidigt, for at kunne udføre de ellers meget lange beregninger i acceptabel tid.

En pragmatisk, men usødende måde at få data ud af et kognitivt system på officielt grund er at jage svaret fra det kognitive model gennem en filter. Filteret fjerner så alle forekomster af et bestemt personnavn eller telefonnummer. Dette er dog ikke tilførligvis muligt. Data findes også, når de er i modellen, men ikke bliver udleveret som svar. Det gælder også for en e-mails fra en tidligere kontakt, der ønskede at få sine data slettet, selv om de ikke blev slettet. Når en tilsyns- eller efterforskningsmyndighed senere kontrollyser, som i virkeligheden kun sjældent vil ske, eller ved næste datalejlighed på grund af en hackerangreb, bliver dilemmaet så for alle synlig.

Hvad ændrer sig ved AI egentlig?

Søgemaskiner har allerede i længere tid også givet svar fra indlæste indhold. Disse svar er måske ikke altid i overensstemmelse med sandheden. Herover har dog endnu ingen dataskyddsmyndighed været oppe at køre, så vidt kendes.

AI-drevne chatbots kan give svar i ny form, som betegnes abstraktivt. I stedet for et citat får brugeren en tekst på nye ord. Her kan der især let opstå fejl- eller falske svar.

I sociale medier er derimod antallet af falske påstande til skade for personer sikkert ikke så lavt heller. Derfor kan den nuværende begejstring, som opstod på grund af AI, ikke helt forstås. Nuværende udtalelser går lidt i retning af aktivisme.

Til ære for mange af dem, der er blevet nævnt, at det ukendte ("den AI") synes at få mange til at blive bekymret på en ærlig måde, så de ville ønske, de kunne gøre noget imod. At ønsker opstår, som ikke kan realiseres, er ligegyldigt i forhold til § 26 TDDDG, der dog blev dikteret af lobbyister ind i loven.

Ejerskab til egne data

I faktisk er ingen i kontrol med sine data, når de kommer til at være i fremmede hænder, f.eks. ved at blive offentliggjort på en hjemmeside eller ved at bruge/beregne data på en social medie-platform.

Sandsynligvis mener den føderale persondataombudsmand med kontrol over egne data at gøre sig til tale mod brugen i AI-modeller på specifikke platforme, hvor en person har et konto som dataejerskab. Denne situation er selvfølgelig relevant og vigtig, men har ikke noget særligt med AI at gøre. Selvfølgelig skal alle personlige data blot efter GDPR behandles, uanset om det sker ved hjælp af en AI eller på anden vis.

Sammenfatning

Persondata kan ikke på en tilførlig måde identificeres som sådan. Intet menneske lykkes heri og heller ikke en maskine. Dette vil være til evig tid, medmindre definitionen af Art. 4 Nr. 1 GDPR, der definerer hvad persondata er, ændrer sig.

Data kan ikke blokeres mod brug i AI-modeller. Dette problem ville være rent juridisk løseligt. Teknisk er det aldrig sikker løst. Man skulle i stedet stole på, at Crawler respekterer websitet's anmodninger (ønsker!). Der er næsten sikkert bedre at stole på Microsoft, selv om firmaet har skabt massive sikkerhedshuller, som de ignorerer og nedtoner.

Kunstig intelligens kan ikke tilfredsstillede reguleres, så ønsket det også er.
Ønsker ændrer ikke objektivt de reeltiske grænser.

Data kan ikke slettes fra eksisterende AI-modeller. Problemet kunne i teorien løses. Det synes mere sandsynligt, at AI-modeller snart blot vil blive genbrugt, da hardware og grafikprocesorer (GPUs) er blevet meget hurtigere og billigere.

Konklusion

Der ønske efter regulering af AI er forståeligt. Det fører dog til krav, der er umulige og praksisfremmede. Om dette bliver taget i betragtning, fordi man vil skabe den indtryk, at politiske pligter bliver opfyldt eller om det skyldes mangel på kendsgerning, skal være uden interesse.

Når data er personrelateret, kan man ikke afgøre noget i almindelighed. Måske hjælper en intergalaktersk analyse?

En kunstig intelligens opfører sig selv som en menneske. Mennesker er som regel usikre. Man mærker det mindst ved næste aftaleforberedelse. Også såkaldte eksperter kommer ofte til forkerte eller dårlige resultater. Hvorfor skulle det være anderledes hos et computerprogram, der efterligner intelligensfunktionen af mennesker?

Ist der stille Bitte allgemeine unerfüllbare Forderungen at sætte, kunne først meget store selskaber grundigt undersøges og konsekvent, hurtigt og smertefuldt sanktioneres. Udgående fra de opnåede indsigt kan derefter yderligere tiltag trækkes.

Uanset zukünftige Marktverhaltensregler skal bemærkes, at de enorme potentiale, enten positiv eller negativt, af AI-Anwendinger ikke længere kan standses. Hverken kan opbygge et AI-model under sin skrivebord eller downloade og bruge et eksisterende. Det ville være meget kontraproduktivt, hvis disse AI-modeller kunne anvendes over hele verden, bortset fra i Tyskland eller EU.

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.