Sichere KI, digitaler Datenschutz & Website-Compliance

Ophavsretshavere af online tilgængelige værker har ifølge lov mulighed for at udtrykke en brugsvilkår. Således skal værker beskyttet mod at flyde ind i elektroniske hjerter. Fungerer denne tilgang? I dette bidrag nævnes muligheder og begrænsninger.

Indledning

Kunstig intelligens har enorme evner, der ofte overtræffer den gennemsnitlig intelligente menneske. Den Turing-test regnes for at være positiv afsluttet. Dette test prøver, om en computer er lige så intelligent som et menneske. Yes, det er nu. Som ChatGPT viser, kan en AI endda i bestemte områder overtræffe mennesker, mindst hvis man tager gennemsnittet af alle mennesker. AI har ingen træthed og kan altid tilgå bedre hardware, meget anderledes end mennesket med sit meget begrænsede hjerne. De eneste fordele ved menneske er fra min synsvinkel stadig sensorikken og evnen til at besøge og opleve omverdenen. Det vil ændre sig markant i nærtid til fordel for kunstige systemer.

AI-Modeller kan online tekst og billeder fra udgivere næsten frit trække til sig, og det er juridisk legitim. Lovgivningen giver udgiverne retten til en brugstilladelse, der i praksis ikke eksisterer. Grunde for dette er rent organisatoriske og tekniske.

Dette overraskevende evne af AI skræmmer samtidig. Ophavsmande bekymrer sig, at deres værker nu bliver opslugt og udnyttet af et elektronisk hjerne. Google har allerede gjort det, kun ikke så mange blev opvakt: Nogen indtager en søgeord i søgemaskinen. I stedet for at din hjemmeside med tilsvarende søgeresultat viser sig og du kan fange brugeren og bruge ham til dine legitime formål, bliver svaret fremgivet som et udtræk af indholdet i søgemaskinen. Brugeren lander ikke på din hjemmeside, men bliver først fjernet. Du er den content-leverandør og den dumme. Google glæder sig. For brugerens vedkommende er det ligegyldigt.

Der følge af dette var, at mange opfindere af online tilgængelige værker krævede krav om samtykkepligtighed. Forfatteren skal derfor give en AI tilladelse til at bruge hans værker. Andre kræver kun det, som også er i loven, nemlig mulighed for at vælge ud. Denne mulighed er i § 44b Abs. 3 UrhG fastlagt og formuleret således:

Brug efter afsnit 2 stk. 1 [Kopieringer af lovgivende tilgængelige værker til tekst og data mining] er kun tilladt, hvis ejeren ikke har næret sig dette. En brugerværn ved online tilgængelige værker er kun gyldig, når det foretages på en maskinlæsbar måde.
§44b stk. 3 Lov om Ophavsret

Fremtidig skal kopieringer af værker tilknyttet en forfatter til slette, når de ikke længere er nødvendige. Det er dog ikke et problem, da hvis du har læst en tekst godt igennem, så ved du også uden det oprindelige, hvad teksten mente. Ligeså gør en AI.

Teknisk brugsbetingelse

Online tilgængelige værker er f.eks. hjemmesider, linkede PDF-filer, billeder, lydfiler, tekstfiler eller gratis e-bøger. Ophavsretshavere af sådanne værker har ifølge § 44b UrhG ikke tilladelsesret (samtykningsfråga), men kun mulighed for at sige nej. Hvis ophavsretshaveren ikke sender signal til opt-out, må hans tekst læses og anvendes til tekst- og data-mining ifølge ovennævnte lovgivning. Under disse Gravende processer forstår jeg også anvendelser af kunstig intelligens. Med denne opfattelse er jeg sandsynligvis ikke alene.

Tilfældigvis er betegnelsen Udtrækkes ikke et synonym for brugsvilkår. Fordi Opt-Out også virker tilbage i tiden, mens brugsvilkår kun virker fremover i tiden. Er brugsvilkåret først oprettet efter en læseoperation af en crawler, har det ingen effekt hvad angår denne læseoperation.

Hvad ser en valgmulighed teknisk ud?

For søgemaskiner og andre crawlere findes denne mulighed allerede. Den er givet ved robots.txt-filen. Filen følger en almindelig fastlagt, videre udbredt og almindeligt kendt konvention. Hver enkelt søgemaskine, der ønsker at ligne rechtskonform, respekterer denne fil.

Robotten.txt-filen til en hjemmeside er tilgængelig under hovedpåstedet, f.eks. dr-dsgvo.de/robots.txt. Den ser så ud på min blog:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Tilføjelse: Jeg bruger også en dynamisk bot-sikring, der også blokerer nogle søgeresultater.

I mit robots.txt-fil erklæres det, at Internets Arkivet ikke må læse min hjemmeside. Dette markeres ved brugernavnet ia_archiver og direktiven Disallow (forby). Ligeledes forbyder jeg ChatGPT at kradse, som kan ses på grund af det taleende brugernavn ChatGPT-User.

Hvilken brugeragent-navn skal bruges til hvilken søgemaskine, hvilken crawler og hvilken AI-platform er ukendt. Store platforme offentliggør navnet på deres crawlers (brugeragenter). En crawler er et program, som graver online tilgængelige indhold.

Princippet bag robots.txt-filen bygger altså på konventioner. Teknisk set er proceduren meget enkel. Er der ikke denne konvention, så eksisterer der heller ikke denne procedure.

Brugerværdsfriheden af online tilgængelige værker over for en AI er faktisk ikke mulig for udgiverne. Grunden er manglen på tekniske konventioner. Redet trænede AI-modeller tager hensyn til ingen forbehold, der først blev udsagt efter træningen.
Henviser til § 44b stk. 3 UrhG.

Antagelig vil du gerne slette en ny AI-plattform, der blev offentliggjort i pressen i går. Hvordan gør du det? Først var du ikke klar over eksistensen af denne plattform og kunne derfor ikke søge efter brugerens agent, som du ønsker at blokke fra i dag. Til gengæld kunne en person med navn Roland eller Susi selv bygge et kognitivt modell og bruge det til at hente indhold fra internettet ved hjælp af en egen crawler.

De skulle finde ud af alle mulige AI-platforme tekniske navne, også mine, for alle Rolands fra 1 til 5000, for alle Susis' AI-platforme fra 1 til 13847, for Elons eksperimenter, for dine naboers, for alle AI-firmaer fra USA osv.

AI-plattformer kan i øjeblikket kun adskilles enkelt og først efter at man har opdaget eksistensen af plattformen fra online tilgængelige indhold.
Teknisk fakta.

Det er åbenbart en katastrofe i vente. Først og fremmest kender De ikke alle AI-platforme. Andre, ønsker De heller ikke at kende alle AI-platforme, for så ville De skulle tilbringe døgnet med at lede efter eller teknisk tilslutte sig en muligvis betalingskrævende eller negativt påvirrende tjeneste, der hele døgnet leder efter. For De ønsker jo ikke at lukke alle søgeretterne, men kun de onde AI-platforme og måske også onde søgeretter.

Der var en gang da du ville have en fil med udspærrede datoer, der kunne se sådan ud. I slutningen af linjerne har jeg til illustrationen fiktive datoer som kommentar, hvor du kunne angive den pågældende indgang for at udspærre en bestemt AI-Crawler.

\#Your robots.txt file
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2024
Disallow: /

Det er også muligt at definere generiske indgange ved hjælp af Joker-tegn. Derved bliver dog måske for mange crawlere blokeret. Det kan også være, at nogle crawlere så endnu ikke har begyndt.

Men problemet bliver endnu større, og det er i mindst dobbelt henseende.

Google og Metas marktkraft

Jeg prøvede at finde ud af, hvordan de tekniske navne på Googles og Metas AI-surfere hedder, så jeg kunne blokerer dem. Google Bard er lige så godt som Meta LLAMA 2 et kendt sprogmodel. Jeg vil ikke have mine indhold opstå der uden at jeg får penge deraf. I hvert fald tjener Googe og Meta en guldæble på mine og jeres data. Derfor er der ingen gratis indhold fra mig til deres AI.

Google forklarer i sine persondatapolitikke, der gælder fra og med den 01. juli 2023, følgende:

Eksempelvis indsamler vi data, der er tilgængelig online eller i andre offentlige kilder, for at træne Googles AI-modeller samt udvikle produkter og funktioner som Google Oversætter, Bard og Cloud AI videre. Hvis dine virksomhedsoplysninger vises på en hjemmeside, kan vi indekser dem og vise dem i Googles tjenester.
Kilde: S. 32 af ovennævnte Google privatpolitiske informationer.

Det er næsten en sikkert sag, at Google også bruger sin søgemaskine-crawler til at træne deres kunstig intelligens (AI), når de læser indholdet. Google har ikke interesse i at give jer og mig mulighed for at modsige dette. Som bevis herfor giver jeg en spørgsmål fra Googles support-forum den 29. marts 2023 igen:

Kilde: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de (billedet blev automatisk oversat).

Der er også fire måneder efter, at spørgsmålet blev stillet, ingen svar på denne vigtige spørgsmål. Desuden har Google blokeret spørgsmålet, så der ikke længere kan gives et svar. Selv hvis nogen skulle finde ud af, hvordan man kunne få den Google AI-Bot til at blive fjernet fra blokeringen, ville denne information ikke være med i det almindelige interesse som en svar på spørgsmålet i Googles support forum.

Ved Meta (Facebook, Instagram, WhatsApp) synes det at være på samme måde. Jeg kunne i hvert fald ikke finde en teknisk navn på en Meta-Crawler, der bruges til AI-træning.

Der er således kun én mulighed (ved Google): Entweder de blokkerer hele Googles bot og viser sig ikke længere eller næppe mere i Googles søgeresultat. Eller også lader de det til, at Google kan bruge deres online tilgængelige indhold og værker til alle mulige formål, som Google selv har bestemt.

Hvis nogen ønsker at blokkeere Google fra at indeholde deres hjemmeside, så er her instruktionerne til robots.txt filen:

User-agent: Googlebot
Disallow: /

Hvis en dybere sti gives som værdi for parametret Disallow, begrænser blokeringen sig kun til den angivne del af din hjemmeside. Der er derfor kun få muligheder for at gå imod Googles datinsamlingssult. Jeg finder det beundringsværdigt, når du også over din hjemmeside sender yderligere data fra dine hjemmesiden-brugere til Google og således gør Google endnu mægtigere. Du arbejder hårdt for at gøre Google endnu mægtigere uden løn og ofte uden lovgivende grundlag. I hvert fald indsætter du dig selv i arbejde ved at indsætte plugins som Google Fonts, Google Maps eller Google Analytics i stedet for lokale skrifter, en datenschutzfreundliche karte eller Matomo.

Google argumenterer ifølge min mening således:

Datensikkerhed: „Vi, Google, behandler ingen personlige oplysninger.” Google synes ikke at vide, hvad en databehandling er og forklarer derfor Googles Tag Manager som arbejdssvag.
Kunstig intelligens:
- Fald a: Din personlige information vises i AI-svaret fra Google Bard. Google vil sige: "Men du har jo selv offentliggjort disse oplysninger. Vi viser blot det, hvad din hjemmeside viser til enhver, der besøger din side."."
- Fald b: Deres bidrag bliver gentaget i deres egne ord og ikke som en væsentlig citat af Google Bard til svar på spørgsmål fra brugere tilbage til Googles AI. Google vil sandsynligvis sige: "Vores udgifter er ikke urheberrettskrænkelser, fordi vi ikke gentager dine indhold i væsentlig form ordret, men i helt andre ord

Forfattere af online tekster bliver ofte ikke informeret om fald 2 b). Fald 2 a) indeholder en del kontrovers, som jeg vil beskrive nedenfor.

Kom nu til næste problem for udgivere, der ikke ønsker at bruge deres værker i en AI.

Indlægge virker i fremtiden

ChatGPT-4 bygger på en database fra september 2021. Jeg selv vidste ikke noget om ChatGPT i 2022 og fik kun et kort glimt af det. Derfor ville det være umuligt for de fleste at have defineret en blokering af deres egne værker, som forbød ChatGPT at bruge deres eget værk.

Alle indhold, der er læst før en blokeringsforsøg af ChatGPT eller andre AI-modeller, findes i det elektroniske hoved. Derved ændrer også senere blokeringer fra en udgiver ikke noget. Hans værker er allerede blevet sugget op. Kun nye værker eller opdateringer håber jeg ikke længere bliver misbrugt af en tredjeparts-AI.

Data fra AI-modeller er næsten umuligt at slette

Brugsvilkår fra udgivere kan ikke så let og hurtigt som i traditionelle søgemaskiner tages hensyn til. Måske går det også ikke tilbagevirkende.

Selv i store søgemaskiner kan det tage flere dage eller uger, før en aflysning er blevet gennemført. Jeg kan her fra erfaring tale. En tysk by havde en datakrise og bad mig om at hjælpe til med at udrydde personoplysninger fra de store søgemaskiner. De sidste uønskede treffere var kun blevet fjernet efter flere uger.

Så vidt jeg ved, er ingen forpligtiget til at genoptrene et AI-modell efter det første træning. Uden genoptrentning vil alle data, der blev læst ind i modellen, være indeholdt i modellen. Dog bliver dataene ikke lagret i renskabt form, men deres struktur eller essens bliver lagret. Præcist kan man slet ikke sige det. Jeg henviser til menneskeligt hjerne og dens Svampeagtig lagringselement for informationer.

AI-modeller som elektriske hjerter kan ikke glemme.
Min nuværende viden. Bedes om du har ret i det her.

Et AI-modul, der bliver, som det er, sletter ingen data, der omfatter online læste værker af udgivere. Slet ikke i øvrigt slettes der data fra AI-moduler. Selv AI-moduler, der igen trænes op, har ofte dette problem. Ved ChatGPT er Version 3.5 aktueligt tilgængelig i Tyskland. Det gør det lidt til nytte, hvis en udgiver har en brugerværdsættelse, når denne indholdssperre kun virker på ChatGPT-4 og ikke på Version 3.5.

Selv om hver større og dermed potentielt magtfuld AI-model blev genoptænkt fra null igen, ville forsinkelsen være immens. Bloomberg-GPT er et AI-model til finansielle data. Herfor ville flere millioner timer af dyreste computekraft blive brugt ved hjælp af utrolig mange højpresterende grafikkort til beregningerne. Det kan simpelthen ikke antages, at Bloomberg-GPT hver måned kommer i en ny version. I stedet er det snarere årsperioder, der skal forventes.

For at uønskede oplysninger fra et AI-model forsvinder, skulle man det være nødvendigt at jorde (grounding). Dette fremgangsmåde er dog usikker og mere egnet til at fjerne falske oplysninger ved hjælp af korrekte oplysninger. Følelsen af glemme har AI-modeller ifølge min viden ikke. Selv mennesket kan heller ikke rigtig godt glemme. Ofte er det nok et ankerpunkt eller stimulusord, der bringer en troet glemt erindring tilbage. At vi mennesker ikke husker os selv på alt, måske ligefrem være fordi vores hardware i hovedet ikke er trænet på persistens. Det ser anderledes ud med elektroniske hjerter. Så længe der er nok strøm eller backup, er de i hjernen indsatte oplysninger uudløselige.

Søgemaskine mod AI

En kunstig intelligens er ikke en søgermaschine, når man ser på den funktionelle side. Sikkert kan med et sprogmodel også fakta udtrukkes. Disse fakta er dog på grund af den lange træningsperiode og de meget udfordrende træningsintervaller ofte forældede. Aktuelle fakta finder man i AI-modeller så godt som ikke.

For en præcis søgning, som klassiske søgermaschiner gør med stor succes, er et AI-system ikke egnet fra starten af. I stedet ligner et AI-system en semantisk, struktureret eller uscharp søgning.

Teknisk set taler man ved et AI-system om en Vektorsøgemaskine.

Fra Persondatabeskyttelse er det dog ligeglad, hvordan systemet er opbygget. Personer som ejere deres egne data har ret til at blive fjernet fra søgeresultater (EU-domstolens afgørelse af 24.09.2019, sagsnr.: C-507/17). Derfor må Google sørge for, at persondata på ønske af dataejeren forsvinder fra søgeresultaterne. KIs svar på en søgerække er også persondata.

I en søgemaskine som Bing kan man for eksempel, ved siden af normale søgeord, også stille komplekse spørgsmål . Bing besvarer disse spørgsmål med hjælp fra sin AI. Alene heri bliver det tydeligt, at det ikke kan gøre nogen forskel for en person, der søger efter information, om det er et system som DuckDuckGo, en AI-styret søgemaskine som Bing eller en chatbot som ChatGPT.

Bemærk ved siden af, at Bing ofte giver fejle svar. Dette har ikke så meget med hallucinationer at gøre, men mere med alternative sandheder, der desværre ofte bliver taget for sandhed. Ifølge Bing er cookies tekstfiler.

En forespørgsel til Bing fra den 31.07.2023. Mit bidrag påstår det modsatte, men bliver dog nævnt som kilde. (billedet blev automatisk oversat).

Hviskies bliver også som bevis for Bing-svaret henviset til min artikel. Jeg beviste i denne artikel præcis det modsatte. Med et datadugt AI-system, der selv og uden Microsoft, Google eller ChatGPT kan drives af virksomheder, ville dette ikke være sket. Bing-AIer altså farlig og viser ikke engang på det. I stedet foreslår en anden søgeord: „Er cookies farlige?“.

Slettebar information i AI-søgemaskiner

En AI er ikke en søgemaskine, men bruges dog delvis som sådan, som Bing viser. Denne tilgang opstod på grund af ressourceressernes mangel (hardware, beregnings-tid) og følger følgende:

En AI søger hele dokumentsamlingen, som kaldes søgeindeks. Det er tilsvarende en søgemaskine, der dog søger præcisere eller mere præcise end en AI.
De bedste til spørgsmålet egne dokumenter bliver udvalgt.
Denne AI bliver kun spurgt i forhold til de udvalgte dokumenter.
Den AI svarer med viden fra de udvalgte dokumenter og bruger derfor sine sprogfærdigheder.

Således kan dokumenter fra en søgesinde af en AI-søgning slettes, ligesom det ville være tilfældet ved en traditionel søger. Dog er sådanne AI-søgemaskiner, som jeg her vil kalde dem, ret usikre, som Bing viser. Bing er derfor i sidste ende ikke rigtig brugbar og slet ikke til dokumenter fra eget firma.

Hallusinationerne i en AI, som kan påvises i den AI-drevne Bing-søgemaskine, kan undgås i virksomhedens egne AI-systemer.
Til gengæld er jeg interesserede i at høre fra dig.

Der mangler i Bing, er et effektivt Grounding. Bing kan ikke gøre det, fordi ressourcerne til at gøre det på Microsoft er endnu for få. Det er i hvert fald min antagelse med kendskab til tekniske detaljer om AI-modeller og deres hardware-krav.

Det ser ud til at være billigere med virksomhedsejede AI-systemer, der vil blive behandlet i en fremtidig artikel på Dr. GDPR. Disse systemer kan anvende Grounding og så kombinere to fordele:

Aktuelt kendskab er tilgængeligt.
Svar på spørgsmål, der stilles til dette kendskab, er ret præcise.

Hallusinationer kan undgås i lokale AI-systemer, der ikke har noget med Microsoft, Google, Meta eller ChatGPT at gøre, men kun i lokale systemer. Har du også nogensinde tænkt over et sådant AI-system til dit firma? Det koster ingen formue.

Tekst, billeder og andre medier: Ophavsret?

For online tilgængelige tekster gælder det også for online tilgængelige Billeder. Her er dilemmet måske endnu større, da man efter mine tests meget ofte ikke længere kan se, hvorfra et AI-genereret billede stammer fra. Til gengæld kombinerer billedgeneratoren som Midjourney eller DALL-E flere billeder. Der LAION-5B-datasæt, der meget ofte anvendes af Stable Diffusion-billedfremstilling, tillader en billede-søgning efter lignende billeder.

Følgende trin har jeg gennemført med LAION-datasettet for at se, om genererede AI-billeder var tilsvarende det online tilgængelige oprindelige materiale:

Opretning af et billede ved hjælp af en AI-billedegenerator.
For dette billede blev billeder søgt i LAION-databasen, som næsten omfatter seks milliarder billeder.
Billedets lighed med billeder fra datamængden var hver gang så lille, at jeg som menneske ikke kan opdage en urheberretsforbrydelse selv under meget streng prøvelse.

Mine tester var dog ikke omfattende, men kun sporadiske. Jeg har allerede oprettet tusindvis af billeder med en lokal AI-system.

AI-image generatoren producerer meget ofte billeder, der er fuldstændig forskellige fra de oprindelige billeder (træningsdata). Således når ikke ophavsretten her mere.
For træningen skal der i stedet være opfyldt de meget gunstige betingelser for AI-modeller ifølge UrhG.

Jeg ser også regelmæssigt, at en genskrivning af teksten gennem mit valgte AI-model foregår på en måde, der er ret forskellig fra det oprindelige. Derfor synes jeg, at spørgsmålet om det oprindelige værk her ikke er til stede. Det behøver ikke altid være så tydeligt som domme over digte viser. Hvis et firma dog bruger en AI-model, kan de flere gange modstå denne problematik.

Først og fremmest kan autark AI-systemer udstyres med frie valgmuligheder for træningsdata. Andre gangen kan udgangen ikke offentliggøres, f.eks. i firmaets netværk. Juristen ved bedre end jeg, hvorvidt dette påvirker urheberretten. Det er dog fastlagt: "Hvad jeg [som urheber] ikke ved, gør mig ikke varm." Risikoen for ikke-offentlig brug af data er altså væsentligt lavere end hvis man viste resultaterne frem. Tredje gang kan virksomheds-ejede AI-systemer udstyres med verfremdelsmekanismer af enhver art. Det bedste er økonomien. Hvad der tidligere kostede en formue, er i dag tilgængeligt. Din virksomhed har ikke brug for ChatGPT (og hvis det gør, ville jeg gerne vide hvad det er til). ([1])

Konklusion

Oplysninger, der én gang er blevet lagt i et kognitivt modell, kan ikke slet ikke fjernes fra dette elektroniske hjerne. Det ser endnu sværere ud at forhindre, at egne online værker lander i kognitivt modeller.

Således er egne indhold dømt til at blive opslugt af store AI-platforme. Modstanden mod opslukningen er muligvis i form af en udlistning, men omfatter måske ikke alle slags værker. Personlige data er således beskyttet bedre end tekster hvis Aromastofte bliver assimileret af en tredjeparts-AIog dermed fravalgt fra kontrol af oprindelige tekstforfatter.

Google arbejder især perfid og bruger alle indlæste indhold til enhver god sag. Dertil hører både søgemaskinen samt AI'et Google Bard samt alt andet, hvad Google kan tænke sig. Analog synes det at være tilfældet med Meta.

Tekster, der ikke primært er skrevet som en artikel om et emne, måske entåder sig selv for AI-modeller. For det vigtige står ofte mellem linjerne.

Ophavsretshavere af online tilgængelige værker vil i midlertidighed ikke have mulighed for at nægte en AI adgang til deres værker.
Se indlægget.

Nutzungsvorbehalt af udgivere hinsigtende deres online tilgængelige værker er faktisk ureguleret og således næsten umulig i praksis. Kun for verdenskendte systemer som ChatGPT kan denne rettighed være halvvejs realiseret.

Dog kan informationer fra kognitivt modeller ikke slettes kortfristigt. I stedet ville et kognitivt model skulle trænes fra bunden op igen, hvilket er meget tidkrævende og derfor kun sjældent sker. Så længe er i hvert fald de egne værker tilgængelige på en fremmed kognitiv enhed uden at udgiver noget herom har noget med det at gøre.

Det er ikke udelukket, at der vil være mathematiske tilgange, til at slette enkelte data fra et AI-model. Af det har jeg dog endnu ikke hørt noget og kunne hverken finde nogen bekræftelse på det. Jeg synes også, det ville være svært og tror mere på, at der ikke vil være en sådan mekanisme i praksis tilgængelig inden de næste 12 måneder.

Så længe den teknisk simple opgave med brugerværn ikke er løst analog til søgermaske-crawler, er alle indholdsskabere i hvert fald dårligere stillet end de ønsker.

Troligt vil lovgivning på EU-niveau blive udarbejdet for at beskytte data fra opfindere mod at blive stjålet af AI-surfere. Det er dog allerede for sent til det, og endnu mere når lovgivningen begynder at gælde. De dumme er igen de mindre virksomheder. Google og andre koncerner kan bare fortsætte med at bruge datamassen fra internettet (undtagen hvis I ikke længere ønsker at være til stede i Googles søgemaskine). Den, der driver store crawlere, kan også lede efter indhold, som ikke er forbudt.

Teknologi slår retten, fordi teknologien sker i lysfart og retten i snegletempo.

Aktuelt er der gang på en sag mod LAION. En fotograf vil gerne have sine billeder fjernet fra den LAION-database efter at de er blevet tilføjet. I det almindelige tilfælde findes disse billeder dog ikke længere i LAION (der er sikkert tegn på, at dette også er tilfældet her, selv om det ikke er nødvendigt for at opbygge AI-modeller). Uafhængig af dette anvender mange billedgeneratormodeller verden over den LAION-database. En kontrol over enkelte dele (her: billeder) synes umulig.

ChatGPT brugte den Common Crawl-databasen til træning af AI. Databasen er en udskiftning af dele af internettet, hvor nogle dele blev valgt tilfældigt. Så snart der findes en teknisk konvention for en begrænsning (robots.txt), bliver det ubehageligt for alle AI-modeller, der bruger en aktuel Common Crawl-databasen. Indtil da vil der sandsynligvis gå mange måneder eller flere år. Juridisk set findes der også mulighed for udvekslinger. Eksempelvis kunne OpenAI påtale, at de har taget ChatGPT-4 som grundlag (Fine-Tuning), i stedet for at træne version 5 fra bunden op. Databasen til ChatGPT-4 synes dog at være legitim i forhold til begrænsninger af urheberretter, da der næsten ikke var nogen begrænsninger i september 2021.

Sammenfatning

Essensen af bidraget og konsekvenserne i korte træk:

Teknisk set er en brugsvilkår fra udgiverne, der forbinder AI-modeller til at være ude af stand til at "suge" op online tilgængelige værker, ikke mulig (i hvert fald ikke nu).
En brugsbetingelse efter § 44b UrhG virker kun fremover i tiden. Allerede trænede AI-modeller forbliver sådan som de er.
Der er ikke nogen samtykningsvilkår for udgivere af online tilgængelige værker overfor AI-modeller.
AI-modeller kan ikke glemt, og hvis de gør det, så kun efter store anstrengelser og med betydelige tidsforfald.
AI-modeller, der ikke er blevet genudannet, tager hensyn til brugerværdsætninger, som først er givet efter AI-træningen.
Tidene er svære for de oprindelige opfindere. Noget, hvad en mand kan gøre og tillade sig med fremmede værker, kan en AI slet ikke (og sandsynligvis faktisk heller ikke).
Nennung af kilder til et AI-model ændrer ikke noget , fordi brugsvilkår er blevet udtrykt kun få gange hittil.
Google bruger åbenbart alle Crawler-data både til søgemaskinen og til Google Bard eller lignende. Dermed er en kontrol for udgivere på grund af Googles marktmagt i øjeblikket faktisk ikke mulig.
Juridisk er der mange undskyldninger tænkelige til at give kunstig intelligens-modeller en fornemmelse af legitimitet.