Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Kunstig intelligens: Persondata i AI-modeller

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel som PDF (kun for abonnenter på nyhedsbrevet)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Mange kræver regulering af AI-anvendelser. Masseoplysninger til træning af AI-modeller skal i idealfald ikke længere indeholde personlige oplysninger, selv om disse stammer fra offentlige kilder. Det kræver f.eks. den føderale dataskyddsforsker. Hvad betyder det for praksissen?

Indledning

Et AI-modul er et elektronisk hjerne, der repræsenterer et neuralt netværk. Forbindelserne mellem neuronerne repræsentere viden, helt analogt til det menneskelige hjerne. Viden indlæses via indsammenlæsning af millioner eller milliarder af online fri tilgængelige dokumenter. Til disse dokumenter hører især hjemmesider.

I mange af disse tekster, der træder ind i AI-modeller, er personlige oplysninger til stede. Disse data lander således på træningsdata for en kunstig intelligens. Endnu mere: Udgivelser, som en chatbot genererer på basis af disse træningsdata, kan også indeholde personlige oplysninger.

Det synes problematiskt fra nogle menneskers synspunkt, såsom den tyske Bundesdatenschutzbeauftragte, at disse personlige data lander i AI-modeller. Fra disse data i AI-modeller følger der grundlæggende flere spørgsmål:

  1. Er dataejer (den pårørende person) enig i, at hans personlige oplysninger kommer til at være indeholdt i et bestemt AI-model? Præcist (så længe der ikke er en pligt til at få samtykke):
  2. Hvordan kan en dataejere afskære sin data fra brug i AI-modeller (opt-out)?
  3. Hvordan kan data fra et allerede eksisterende AI-model slettes efterfølgende?

Fra disse spørgsmål opstår en række praktiske problemer, som bliver diskuteret nedenfor.

Når forekommer persondata?

Om en dataværdi er personbevis eller ej kan meget ofte ikke eller ikke pålideligt fastslås. En mand kan muligvis genkende egennavne af mennesker ofte som sådan, men helt sikkert aldrig. En maskine (AI) kan dette endnu værre gøre.

Direkte personrelaterede oplysninger som navne eller postadresser kan i princippet ikke pålideligt identificeres af maskiner.

Hvis et Køretøjskendemærke, en telefonnummer eller en virksomhedsnavn er personbevidst, vedkender ingen (bortset fra en dybt kendskabsfuld til Kfz, telefonnummeret eller virksomheden). En maskine kan derfor heller ikke vide, om „Maier Ltd.“ er et personbevidst dataværdi. Navnet på en virksomhed er nemlig personbevidst, hvis man direkte eller indirekte kan føre til en person (se Art. 4 Nr. 1 GDPR). En en-mands-virksomhed er åbenbart personbevidst. Navnet på en virksomhed med 50 ansatte er åbenbart ikke personbevidst. Hvis man dog nævner navnet på en virksomhed med 50 ansatte i forbindelse med et ansat, der måler 1,98 meter („den største ansat i vores virksomhed“), så er denne kombinerede oplysning af virksomhedsnavn og mål til en ansat at betragte som personbevidst.

Automatiserede data kan aldrig i hele sin omfang tilføjes med tillid som persondata eller ikke-persondata.

Algoritmer indeholder derfor alltid betydelige usikkerheder ved erkendelse af persondata.

Særligt i det foregående eksempel bliver det tydeligt, at ingen og intet kan være sikker på, om data er personrelaterede eller ej. Man kan heller ikke direkte se, om en telefonnummer tilhører en person eller en virksomhed og om virksomheden består af én person eller flere.

Hvordan kan data blokkes mod brug i AI-modeller?

Den korte svar er: Nej. I hvert fald er dette den nuværende situation. Der findes simpelthen ingenting, som kan bruges til at beskytte data på hjemmesider mod fremmed adgang. At læse en offentlig hjemmeside er åbenlyst altid muligt. Præcis det samme er formålet med en hjemmeside: Den skal være tilgængelig for så mange mennesker som muligt. Robotprogrammer (Crawler, Scanner) kan næsten ikke skelnes fra et menneskeligt læser. Mange hjemmesider har ikke muligheden for at prøve dette på nogen måde teknisk. Så meget til den nuværende stand af teknologien.

Den eneste nuværende praktikable vej er at bruge robots.txt filen. Denne fil tillader webstedsejere at definere, hvilke søgemaskiner der må tilgå deres indhold og hvilke ikke. I mellemtiden respekterer nogle AI-applikationer også denne fil, når de graver indhold.

Det er teknisk ikke muligt at blokere egne data mod brug i AI-modeller.

For tiden og fremover.

Mange AI-applikationer interesserer sig dog ikke for denne robots.txt fil eller nogen ønsker fra hjemmesideejer om at blive unddraget. Derudover drejer det sig om ønsker og ikke om teknisk hårddefinerede definitioner. Selvom ChatGPT f.eks. siger, at det respekterer hjemmesidens ønske om at blokkege hjemmesiden mod AI-brug af ChatGPT, er dette en ren tillids sag. Hvem endnu tror på OpenAI og ChatGPT, skal huske de faktiske fakta:

  1. Italiens dataskutzmyndighed har forbudt ChatGPT, fordi OpenAI synes at have gemt data ulovligt, fx brugerindgivelser.
  2. OpenAI har ikke blot en samtykke fra brugeren indhentet, men snarere tilbydet en mulighed for at afvise (Opt-Out).
  3. OpenAI tilbyder nu med ChatGPT Enterprise og den fordel "Få enterprise-graderet sikkerhed & privatliv". Dvs.: "Vi følger kun dataskyddsbestemmelserne, hvis du køber Enterprise-versionen".

Hvis man tror på selskaber som OpenAI, Google eller Microsoft, så snart en melding om beroligelse kommer frem, selvom disse selskaber tidligere har vist sig at være usikre, så handler det ikke rationelt, men Ungdommelig.

Data fra krawling-databaser som The Pile eller Common Crawl eller C4 agerer desuden oprindelig uafhængigt af ChatGPT, men bliver så tilføjet af ChatGPT og andre AI-modeller til træning af store sprogmodeller. Sådan bliver et problem til en flere-gang-problem, nemlig for hver data-læser.

Hvordan bliver data fra et eksisterende AI-model slettet?

Den korte svar er: Nej. Der findes i øjeblikket ingen matematisk fremgangsmåde, hvorved data kan slettes fra et AI-model med kirurgisk præcision (eller overhovedet).

Der aktuell einzige Weg, om at slette data fra et eksisterende AI-model, består i at kassere modellen og træne den helt fra bunden igen. Ved genoptræningen bliver de til at slette data ikke længere taget i betragtning.

Fra et eksisterende AI-model kan data ikke slettes.

For tiden og fremover.

Lyder meget kompleks og dyrt. Præcis det er også. Et AI-model fra null til at træne, er især for store sprogmodeller meget tidssvær, meget dyr og tager en følelsesmæssig evighed, selv på enorme serverfarme. En AI-server forbruger meget strøm og er meget dyr, fordi den mindst bruger en meget dyre eller flere dyre grafikkort samtidigt, for at kunne udføre de ellers meget lange beregninger i acceptabel tid.

En pragmatisk, men usødende måde at få data ud af et kognitivt system på officielt grund er at jage svaret fra det kognitive model gennem en filter. Filteret fjerner så alle forekomster af et bestemt personnavn eller telefonnummer. Dette er dog ikke tilførligvis muligt. Data findes også, når de er i modellen, men ikke bliver udleveret som svar. Det gælder også for en e-mails fra en tidligere kontakt, der ønskede at få sine data slettet, selv om de ikke blev slettet. Når en tilsyns- eller efterforskningsmyndighed senere kontrollyser, som i virkeligheden kun sjældent vil ske, eller ved næste datalejlighed på grund af en hackerangreb, bliver dilemmaet så for alle synlig.

Hvad ændrer sig ved AI egentlig?

Søgemaskiner har allerede i længere tid også givet svar fra indlæste indhold. Disse svar er måske ikke altid i overensstemmelse med sandheden. Herover har dog endnu ingen dataskyddsmyndighed været oppe at køre, så vidt kendes.

AI-drevne chatbots kan give svar i ny form, som betegnes abstraktivt. I stedet for et citat får brugeren en tekst på nye ord. Her kan der især let opstå fejl- eller falske svar.

I sociale medier er derimod antallet af falske påstande til skade for personer sikkert ikke så lavt heller. Derfor kan den nuværende begejstring, som opstod på grund af AI, ikke helt forstås. Nuværende udtalelser går lidt i retning af aktivisme.

Til ære for mange af dem, der er blevet nævnt, at det ukendte ("den AI") synes at få mange til at blive bekymret på en ærlig måde, så de ville ønske, de kunne gøre noget imod. At ønsker opstår, som ikke kan realiseres, er ligegyldigt i forhold til § 26 TDDDG, der dog blev dikteret af lobbyister ind i loven.

Ejerskab til egne data

I faktisk er ingen i kontrol med sine data, når de kommer til at være i fremmede hænder, f.eks. ved at blive offentliggjort på en hjemmeside eller ved at bruge/beregne data på en social medie-platform.

Sandsynligvis mener den føderale persondataombudsmand med kontrol over egne data at gøre sig til tale mod brugen i AI-modeller på specifikke platforme, hvor en person har et konto som dataejerskab. Denne situation er selvfølgelig relevant og vigtig, men har ikke noget særligt med AI at gøre. Selvfølgelig skal alle personlige data blot efter GDPR behandles, uanset om det sker ved hjælp af en AI eller på anden vis.

Sammenfatning

Persondata kan ikke på en tilførlig måde identificeres som sådan. Intet menneske lykkes heri og heller ikke en maskine. Dette vil være til evig tid, medmindre definitionen af Art. 4 Nr. 1 GDPR, der definerer hvad persondata er, ændrer sig.

Data kan ikke blokeres mod brug i AI-modeller. Dette problem ville være rent juridisk løseligt. Teknisk er det aldrig sikker løst. Man skulle i stedet stole på, at Crawler respekterer websitet's anmodninger (ønsker!). Der er næsten sikkert bedre at stole på Microsoft, selv om firmaet har skabt massive sikkerhedshuller, som de ignorerer og nedtoner.

Kunstig intelligens kan ikke tilfredsstillede reguleres, så ønsket det også er.

Ønsker ændrer ikke objektivt de reeltiske grænser.

Data kan ikke slettes fra eksisterende AI-modeller. Problemet kunne i teorien løses. Det synes mere sandsynligt, at AI-modeller snart blot vil blive genbrugt, da hardware og grafikprocesorer (GPUs) er blevet meget hurtigere og billigere.

Konklusion

Der ønske efter regulering af AI er forståeligt. Det fører dog til krav, der er umulige og praksisfremmede. Om dette bliver taget i betragtning, fordi man vil skabe den indtryk, at politiske pligter bliver opfyldt eller om det skyldes mangel på kendsgerning, skal være uden interesse.

Når data er personrelateret, kan man ikke afgøre noget i almindelighed. Måske hjælper en intergalaktersk analyse?

En kunstig intelligens opfører sig selv som en menneske. Mennesker er som regel usikre. Man mærker det mindst ved næste aftaleforberedelse. Også såkaldte eksperter kommer ofte til forkerte eller dårlige resultater. Hvorfor skulle det være anderledes hos et computerprogram, der efterligner intelligensfunktionen af mennesker?

Ist der stille Bitte allgemeine unerfüllbare Forderungen at sætte, kunne først meget store selskaber grundigt undersøges og konsekvent, hurtigt og smertefuldt sanktioneres. Udgående fra de opnåede indsigt kan derefter yderligere tiltag trækkes.

Uanset zukünftige Marktverhaltensregler skal bemærkes, at de enorme potentiale, enten positiv eller negativt, af AI-Anwendinger ikke længere kan standses. Hverken kan opbygge et AI-model under sin skrivebord eller downloade og bruge et eksisterende. Det ville være meget kontraproduktivt, hvis disse AI-modeller kunne anvendes over hele verden, bortset fra i Tyskland eller EU.

Computer-generiertes Bild
Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Analytics som effektivt hjælpemiddel for cyberkriminalitets datakrænkelser