Sichere KI, digitaler Datenschutz & Website-Compliance

Upphovsmän till online tillgängliga verk har enligt lag möjlighet att uttrycka ett användningsförbehåll. Så ska verk skyddas från att flyta in i elektroniska hjärnor. Fungerar denna metod? I artikeln nämns möjligheter och begränsningar.

Inledning

Kunskaplig intelligens har enorma förmågor utvecklats, som ofta överträffar den genomsnittligt intelligenta människan. Den Turing-testen anses vara positivt avklarad. Denna test prövar om en dator är lika intelligent som en människa. Yes, det är hon nu. Som ChatGPT visar, kan en AI till och med överträffa människan i delområden, åtminstone om man räknar in den genomsnittliga människan. AI känner ingen trötthet och kan alltid dra nytta av bättre hårdvara, helt annorlunda än människan med sitt mycket begränsade hjärna. De enda fördelarna för människan är enligt min mening sensoriken och förmågan att vandra runt i miljön och uppfatta den. Detta kommer snart att ändras till fördel för artificiella system.

AI-modeller kan online ta upp texter och bilder från upphovsmän nästan hur som helst, och det är lagligt. Lagen ger upphovsmännen rätt till en användningsförbehållning, men den fungerar inte i praktiken. Orsakerna är rent organisatoriska och tekniska.

Dessa imponerande förmågor hos AI skrämmer samtidigt. Upphovsmännen oroar sig för att deras verk nu kan uppslukas och omvandlas av ett elektroniskt hjärna. Google har redan gjort det, men då inte så många hade varit upphetsade: Någon sätter en sökterm i den sökmaskin. Istället för att din webbplats med tillhörande innehåll visas upp och du kan fånga användaren och använda honom för dina legitima syften, ges svaret som ett extrakt av ditt innehåll i sökmotorn. Användaren landar inte ens på din webbplats, utan får istället svar innan han har någon chans att komma dit. Du är innehållslämnaren och den dumme. Google gläds åt det. För användaren bryr det sig inte om.

Detta ledde till att många upphovsrättsinnehavare av online tillgängliga verk krävde krav på samtyckesplikt. Upplåtaren ska ge en AI tillstånd att ta upp hans verk. Andra kräver bara det som också står i lagen, nämligen en möjlighet att välja bort. Denna är i § 44b Abs. 3 UrhG fastställd och formuleras där på följande sätt:

Användningar enligt punkt 2 § 1 [Uppskrift av lagligt tillgängliga verk för text och data mining] är endast tillåten om rättshavaren inte har förbehållit sig detta. En användningsförbehållning vid online tillgängliga verk är bara då giltig, när den sker i maskinläsbar form.
§44b punkt 3 Uråterrättighetslagen

Fortsättningsvis ska upprepningar av verk som skyddas av upphovsrätt för ändamål med artificiell intelligens raderas så snart de inte längre behövs. Det är dock inget problem, eftersom om du läser en text noggrant, vet du sedan utan originaltexten vad den handlade om. På samma sätt fungerar en AI.

Tekniskt användningsförbehåll

Online tillgängliga verk är exempelvis webbsidor, länkade PDF-dokument, bilder, ljudfiler, rödtextfiler eller gratis e-böcker. Upphovsmännen till sådana verk har enligt § 44b UrhG inte något medgivande (samtyckesfråga), utan bara möjlighet att avstå. Om upphovsmannen inte ger signal till opt-out, får hans text läsas in och användas för text- och datamining enligt den nämnda rättsregeln. Under dessa Grävprocesser förstår jag också tillämpningar av konstig intelligens. Med denna uppfattning är jag nog inte ensam.

I synnerhet är begreppet Avstängd egentligen inte ett synonym för användningsförbehåll. För det är Opt-Out också verksamt i det förgående, medan användningsförbehåll bara gäller för framtiden. Om användningsförbehåll ges efter en läsning av en crawler har det ingen effekt på denna läsning.

Hur ser en avsägelse tekniskt ut?

För sökmotorer och andra crawlers finns det redan denna möjlighet. Den är givna genom filen robots.txt. Denna fil följer en allmänt fastställd, vidare spridd och allmänt känd konvention. Varje sökmotor som vill göra anspråk på att vara rättskonform respekterar denna fil.

Robots.txt-filen till en webbplats är tillgänglig under huvudkatalogen, exempelvis dr-dsgvo.de/robots.txt. Den ser ut såhär på min blogg:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Obs: Dessutom använder jag en dynamisk bot-skydd som även blockerar några sökmotorer.

I min robots.txt-fil är det deklarerat att Internet Archive inte ska läsa in min webbplats. Detta markeras av användaren ia_archiver och direktiven Disallow (förhindra). Likaså förbjuder jag ChatGPT att crawla, som man kan gissa genom det pratande användaren namnet ChatGPT-User.

Vilken användaragentnamn som ska användas för vilken sökmotor, vilken crawler och vilken AI-plattform är okänt. Stora plattformar publicerar namnen på sina crawlers (användaragenter). En crawler är ett program som graver online tillgängliga innehåll.

Hela principen för robots.txt-filen bygger på konventioner. Tekniskt sett är förfarandet mycket enkelt. Om dessa konventioner inte finns, så finns det heller inget förfarande.

Användningsförekomsten av online tillgängliga verk gentemot en AI är för upphovsmännen i praktiken inte möjligt. Orsaken är den tekniska konventionens frånvaro. Redan tränade AI-modeller tar hänsyn till inga villkor som har uttalats efter träningen.
Ansluter till § 44b punkt 3 UrhG.

Antagligen vill ni blockera en ny AI-plattform som presenterades i pressen igår. Hur gör man det? Först visste ni ingenting om denna plattform, och kunde därför inte söka efter dess user-agent för att blockera den från idag. Även Roland eller Susi kan bygga ett eget AI-modell och hämta innehåll från internet med hjälp av en egen crawler.

De skulle behöva hitta tekniska namn för alla möjliga AI-plattformar, även min egen plattform, samt de av Roland från 1 till 5000, Susic från 1 till 13847, Elons experiment, din granns och alla AI-företag i USA osv.

AI-plattformarna kan för närvarande bara avskäras enskilt och först efter att man vet om plattformens existens från online tillgängliga innehåll.
Tekniskt faktum.

Det är uppenbart att detta projekt är dömt att misslyckas. För det första känner ni inte till alla AI-plattformar. För det andra vill ni inte heller veta om alla AI-plattformar, eftersom ni då skulle behöva forska dag och natt eller ansluta er tekniskt till en tjänst som kan vara avgiftsbelagd eller negativt påverka ert synlighet. För det tredje vill ni ju inte blockera alla sökmotorer, utan bara de onda AI-plattformarna och kanske också onda sökmotorer.

Någon gång skulle ni ha en blockeringsfil som kunde se ut så här. I slutet av raderna har jag för att illustrera fiktiva datumvärden som kommentarer angivit de respektive inläggen för att blockera ett visst AI-sökande.

#Your robots.txt file
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2024
Disallow: /

Det är också möjligt att definiera generiska poster med hjälp av joker-tecken. Därmed kan dock många crawlers blockeras. Det kan också vara så att vissa crawlers ändå inte har börjat.

Men problemet blir ännu större, och det är i åtminstone två avseenden.

Google och Metas marknadsstyrka

Jag försökte den 31.07.2023 att ta reda på vad tekniska namnen är på Googles och Metas AI-surfare, för att kunna blockera dem. Google Bard är precis som Meta LLAMA 2 ett känd språkmodell. Jag vill inte att mina innehåll ska dyka upp där utan att jag får betalt för det. Även om Google och Meta tjänar pengar på mina och era data, så kommer det från mig ingenting gratis till deras AI.

Google förklarar i sina dataskyddsinstruktioner, som gäller från och med den 01 juli 2023, följande:

Till exempel samlar vi data som finns online eller i andra offentliga källor för att träna Googles AI-modeller samt utveckla produkter och funktioner som Google Översättare, Bard och Cloud AI. Om era företagsinformationer dyker upp på en webbplats kan vi indexera dem och visa dem i Googles tjänster.
Source: S. 32 i ovan nämnda Googles integritetspolicy.

Det är nästan ett faktum att Google använder sin sökrobot också för att använda lästa innehåll för att träna Googles AI. Google har inget intresse av att ge dig och mig möjlighet att motsäga detta. Som bevis för detta ger jag här en fråga från Googles supportforum den 29 mars 2023 igen:

Source: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de (bilden översattes automatiskt).

Det finns inte heller fyra månader efter att frågan ställdes någon svar på denna viktiga fråga. Dessutom har Google blockerat frågan, så att det inte längre är möjligt att ge ett svar. Även om någon skulle lyckas upptäcka hur man kan blockera Googles AI-bot, skulle den informationen inte visas som ett svar i Googles supportforum.

På Meta (Facebook, Instagram, WhatsApp) verkar det vara likadant. Jag kunde i alla fall inte hitta något tekniskt namn på en Meta-Crawler som används för att träna AI.

Det återstår alltså bara en möjlighet (vid Google): Antingen spärrar ni hela Googles bot och syns inte längre eller sällan i Googles sökresultat. Eller så låter ni det ske att Google kan använda era online tillgängliga innehåll och verk för alla möjliga syften som Google reserverar sig för.

Om någon vill blockera Google från att besöka sin webbplats är detta instruktionen för robots.txt-filen:

User-agent: Googlebot
Disallow: /

Om ett djupare katalogväg ges som värde för parametern Disallow gäller blockeringen bara den angivna delområdet på din webbplats. Det finns således få sätt att motarbeta Googles datainsamling. Jag tycker det är imponerande att du dessutom via din webbplats överför ytterligare data från dina webbplatsanvändare till Google och därmed gör Google ännu mäktigare. Du arbetar hårt för att göra Google ännu mäktigare, utan ersättning och oftast utan rättslig grund. I alla fall tar du dig an jobbet att införa plugins som Google Fonts, Google Maps eller Google Analytics istället för lokala skrifttyper, en dataskyddsvänlig karta eller Matomo.

Google menar enligt min mening att:

Dataskydd: „Vi, Google, hanterar inte alls personuppgifter.” Google vill tydligen inte veta vad som menas med datapolitik och förklarar Google Tag Manager således för arbetsoförmögen.
Konstig intelligens:
- Fall a: Era personuppgifter syns i AI-svaret från Google Bard. Google kommer att säga: "Men ni har ju offentliggjort dessa uppgifter. Vi visar bara upp det som ni visar upp på er webbplats för alla som besöker er sida."."
- Dina bidrag kommer att återges i dina egna ord och inte som ett märkligt citat av Google Bard som svar på frågor från användare till Googles AI. Google kommer säkert att säga: "Vår utgift är ingen upphovsrättsintrång, eftersom vi återger dina innehåll i helt andra ord

Upphovsmännen till online-texter får ofta inte med sig fall 2 b). Fall 2 a) innehåller en del känsliga detaljer, som jag kommer att beskriva nedan.

Låt oss gå vidare till nästa problem för upphovsrättsinnehavare som inte vill att deras verk ska användas med en AI.

Låsningar verkar i framtiden

ChatGPT-4 bygger på en databas från september 2021. Jag själv visste inte ens om ChatGPT 2022 och hade högst kort känt till det. Därmed skulle det vara nästan omöjligt för de flesta att definiera en blockering av egna verk som förhindrar ChatGPT att använda deras verk.

Alla innehåll som lästs in innan en blockering av ChatGPT eller andra AI-modeller satts upp finns i det elektroniska hjärnan. Även senare blockeringar från upphovsrätten ändrar inte på detta. Hans verk har redan blivit sugits upp. Endast nya verk eller uppdateringar hoppas inte längre kommer att förstöras av en tredjeparts-AI.

Data från AI-modeller är knappt raderbara

Användningsförbehåll från upphovsrättsinnehavare kan inte så enkelt och snabbt som i traditionella sökmotorer beaktas. Detta kanske inte ens går att göra återverkande.

Selv i stora sökmotor kan det ta några dagar eller veckor innan en begäran om borttagning har genomförts. Jag kan här från erfarenhet tala. En tysk stad hade en dataskadegång och bad mig hjälpa till vid utlistningen av personuppgifter från de stora sökmotorerna. De sista oönskade träffarna försvann först efter flera veckor.

Såvitt jag vet är ingen tvungen att återträna ett AI-modell efter det ursprungliga träningsstadiet. Utan återträning förblir alla data som lästs in i modellen kvar i modellen. Dock sparas inte data i sin ursprungliga form, utan snarare deras struktur eller essens bevaras. Man kan nog inte säga mer exakt än så. Jag hänvisar till det mänskliga hjärnan och dess schwammiga speicherform för informationer.

AI-modeller som elektroniska hjärnor kan inte glömma.
Min nuvarande kunskapsläge. Informera mig om jag har fel.

Ett AI-modell som förblir sådant löser inga data, som rör verk av upphovsmän som lästs in online. Även i övrigt tas inga data från AI-modeller bort. Även om AI-modeller som återupptränas ofta uppstår detta problem. Vid ChatGPT är version 3.5 för närvarande tillgänglig i Tyskland. Det hjälper inte mycket med en upphovsrättshavandes användningsförbehåll, om innehållsspärren bara gäller ChatGPT-4 och inte version 3.5.

Selv om varje större och därmed potentiellt mäktiga AI-modell skulle upprepas från noll till nytt tränas, skulle fördröjningen vara enorm. Bloomberg-GPT är ett AI-modell för finansiella data. Här skulle flera miljoner timmar av dyrbar datorkraft användas genom att otroligt många högpresterande grafikkort användes för beräkningarna. Det kan inte antas att Bloomberg-GPT kommer ut i en ny version varje månad. Snarare bör årstidsperioder förväntas.

För att oönskade uppgifter från ett AI-modell ska försvinna, skulle man nog behöva "markera" det (grounding). Denna metod är dock osäker och mer lämplig för att eliminera falska uppgifter genom att korrekta uppgifter ersätter dem. Förmågan till glömska har AI-modeller enligt min kunskap inte. Även människan kan inte riktigt bra glömma. Ofta räcker ett ankarelement eller stimulusord för att återuppväcka en trodd glömd minnesbild. Att vi människor inte längre kommer ihåg allt beror kanske snarare på att vår hårdvara i huvudet inte är anpassad till persistens. Det ser ut annorlunda med elektroniska hjärnor. Så länge det finns nog ström eller backup finns, är de uppgifter som är inprogrammerade i hjärnan odödliga.

Sökmotor vs AI

En konstgjord intelligens är inte en sökmotor, när man ser till funktionella sida. Säkert kan med ett språkmodell också fakta extraheras. Dessa fakta är dock på grund av den långa träningstiden och de långt ifrån varandra liggande träningstillfällena ofta föråldrade. Aktuella fakta finns i AI-modeller så gott som inte alls.

För en exakt sökning, som klassiska sökmotorer utmärkt kan hantera, är ett AI-system från början inte lämpligt. Istället liknar ett AI-system en semantisk, strukturerad eller osäker sökning.

Tekniskt sett talar man vid ett kisystem om en Vektorsökningssystem.

Från Personuppgiftsskyddshänsyn är det faktiskt likgiltigt hur systemet är uppbyggt. Personer som äger sina data har rätt till att bli utelämnade från sökresultat (EU-domstolens dom den 24 september 2019, mål C-507/17). Därmed måste Google se till att personuppgifter försvinner ur sökresultaten på begäran av dataägaren. AI:s svar på en sökfråga är också personuppgifter.

I en sökmotor som Bing kan man förutom vanliga sökord sedan länge också ställa komplexa frågor. Bing svarar på dessa frågor med hjälp av sin AI. Att det inte spelar någon roll om det är ett utlistningsbegär hos en person som sker i en klassisk sökmotor som DuckDuckGo, en AI-stödd sökmotor som Bing eller en chattbot som ChatGPT, blir tydligt härvid.

Bland annat ska noteras att Bing ofta ger felaktiga svar. Det har mindre med hallucinationer att göra, utan snarare med alternativa sanningar som tyvärr ofta betraktas som sanna. Enligt Bing är Cookies textfiler.

Fråga till Bing den 31.07.2023. Min artikel hävdar det motsatta, men jag citeras som källa. (bilden översattes automatiskt).

Hänvisningen används också som bevis för Bing-svaret, se min artikel. Jag bevisar i denna artikel precis det motsatta. Med ett datavänligt AI-system, som företag själva och utan Microsoft, Google eller ChatGPT kan driva, hade detta inte hänt. Bing-AIär farlig och anger inte ens på det. Istället föreslås en annan sökfras: „Är Cookies farliga?“.

Tillfälliga uppgifter i AI-sökningar

En kognitiv maskin är inte en sökmotor, men används ibland på samma sätt som en sådan, som Bing visar. Metoden uppstod av resursbrist (hårdvara, beräkningskraft) och ser ut så här:

En AI-sökning genomgår hela dokumentdatabasen, som kallas för sökindex. Detta är analogt till en sökmotor, men den söker exakt eller mer exakt än en AI.
De bästa dokumenten som passar frågan väl kommer att utvaldas.
Den AI får frågan bara mot de utvalda dokumenten ställd.
Den artificiella intelligensen svarar med kunskap från de utvalda dokumenten och använder därvid sina språkliga förmågor.

Så kan dokument från en AI-sökningsindex raderas, likt en vanlig sökmotor. Dock är sådana AI-sökningar, som jag vill kalla dem här, ganska orediga, som Bing visar. Bing är alltså i slutändan inte särskilt användbar och än mindre för dokument från eget företag.

Hallucinationer hos en AI, som kan observeras i den AI-drivna Bing-sökningen, kan undvikas inom företagsägda AI-system.
Kontakta mig vid intresse.

Det som saknas i Bing är ett effektivt Grounding. Bing kan inte göra det, eftersom resurserna för detta ännu är knappa på Microsoft. Detta är min antagande med vetskap om tekniska detaljer hos AI-modeller och deras krav på hårdvara.

Det ser ut att vara billigare med företagsägda AI-system, som snart kommer att ha en egen artikel på Dr. GDPR. Dessa system kan tillämpa Grounding och kombinera två fördelar:

Aktuellt kunskap är tillgänglig.
Svar på frågor som ställs till detta vetande är rätt exakta.

Hallucinationer kan undkas i lokala AI-system, som inte har något med Microsoft, Google, Meta eller ChatGPT att göra, så de kan undvikas. Men bara i lokala systemen. Har du också övervägt ett sådant AI-system för ditt företag? Det kostar ingenting.

Tekst, bilder och andra medier: upphovsrätt?

För online tillgängliga texter gäller också för online tillgängliga bilder. Här är dilemmat kanske ännu större, eftersom en AI-genererad bild ser ut som om den inte längre har några källor att härröra från. Även om bilder genereras av program som Midjourney eller DALL-E kombineras flera eller många bilder. Den LAION-5B-datatypen, som ofta används i Stable Diffusion-bildfunktioner, tillåter en liknelsessökning för bilder.

Följande steg har jag genomfört med LAION-datatillgången för att se om genererade AI-bilder liknade det ursprungliga materialet som finns tillgängligt online:

Skapa ett bild genom en kreativ AI-bildskapare.
För detta bild har liknande bilder i LAION-databasen sökts, som omfattar nästan sex miljarder bilder.
Bildets likhet till bilder från datamängden var så liten varje gång att jag som människa inte kan upptäcka en upphovsrättsintrång även vid noggrann undersökning.

Minsta tester var dock inte uttömmande, utan bara punktvisa. Jag har redan skapat tusentals kibilder med ett lokalt kisystem.

Bildgenererare skapar ofta bilder som är fullständigt olika från de ursprungliga bilderna (träningsdata). Därmed gäller inte upphovsrätten längre.
För träningen måste istället de för AI-modellerna mycket fördelaktiga villkoren enligt UrhG upprätthållas.

Även vid texter ser jag regelbundet att en återgivning genom ett AI-modell i min valfrihet sker på ett sätt som är ganska olikt det ursprungliga. Därför tycker jag att frågan om originalverket inte är relevant här. Det behöver inte alltid vara lika enkelt som domar över dikter visar. Om emellertid ett företag använder ett AI-modell kan det åtgärda detta problem på flera sätt.

Först och främst kan autonoma AI-system med fritt valda utbildningsdata utrustas. Andra kan den utgång inte offentliggöra, till exempel i företagsnätverk. Juristen vet bättre än jag hur detta påverkar upphovsrätten. Fast är: "Vad jag [som upphovsman] inte vet, gör mig inte het." Risken för icke-offentlig användning av data är tydligt lägre än att visa upp resultaten. Tredje kan företagsägda AI-system med modifieringsmekanismer av vilken art som helst utrustas. Det bästa är ekonomi. Vad som tidigare kostade en förmögenhet, är idag tillgängligt. Ditt företag behöver inte ChatGPT (och om det gör det, vet jag gärna varför. Som sökmaschine i alla fall inte).

Sammandrag

Informationer som en gång hamnat i ett kognitivt artificiellt intelligensmodell kan inte lätt utplånas från detta elektroniska hjärna. Ännu svårare syns det att förhindra att egna online verk hamnar i kognitiva modeller.

Så är egna innehåll därför dömda att sugas upp av stora AI-plattformar. Motståndet mot att sugas upp är visserligen möjligt i form av en utlistning, men det kan kanske inte gälla alla typer av verk. Personuppgifter är så mycket bättre skyddade än texter vars essens assimilerats av tredje AI och därmed har urhavaren till originaltexten förlorat kontrollen över den.

Google arbetar särskilt perfid och utnyttjar alla lästa innehåll för alla goda ändamål. Därtill hör både sökmotorn som också kallas Google Bard samt allt annat som Google kommer att tänka ut. På samma sätt verkar det vara med Meta.

Texter som inte skrivits i första hand som artiklar om kunskap, kan kanske undgå att upptäckas av AI-modeller. För det viktiga står ofta mellan raderna.

Upphovsmän till online tillgängliga verk kommer att sakna möjlighet att förhindra en AI från att använda deras verk i framtiden.
Se inlägg.

Nutzungsvorbehalt av upphovsrättshavare beträffande deras online tillgängliga verk är faktiskt oreglerad och därmed i praktiken knappt möjlig. Endast för världsbekanta system som ChatGPT kan denna rättighet av upphovsrättsinnehavare halvvägs realiseras.

Dock kan information från kognitiva modeller inte raderas kortfristigt. Istället måste ett kognitivt modell återuppbyggas från grunden, vilket är mycket tidskrävande och därför sällan sker. Så länge finns i alla fall minst de egna verk tillgängliga i en främmande AI utan att upphovsmannen vet något om det.

Det är inte uteslutet att det Matematiska metoder kommer att finnas för att radera specifika data från ett AI-modell. Jag har dock inte hört talas om detta och kunde heller inte hitta något trovärdigt stöd för detta. Jag tycker också att det är svårt och tror snarare att det inte kommer att finnas en sådan mekanism i praktisk form under de närmaste 12 månaderna.

Så lange den tekniskt enkla uppgiften att lösa användningsförbehållet inte är lika med att lösa problemet för sökmotortillgångare, är alla innehållsskapare i varje fall sämre ställda än de vill.

Det är sannolikt att lagregleringar på EU-nivå kommer att antas för att skydda upphovsrättsinnehavares data från att stjälas av AI-sökrobotar. Men nu är det redan för sent och ännu mer då dessa lagregler börjar gälla. Det är återigen de mindre företagen som blir dumma. Google och andra koncerner fortsätter helt enkelt att använda dataskatten från internet (förutom om ni inte vill synas i Googles sökmotor). Den som kan driva stora crawlers kan också leta efter innehåll som inte förbjudits att nyttja.

Teknik övertrumfar rätt, eftersom teknik sker i ljusets hastighet och rätt sker i snabbsnabbhet.

Aktuellt är en rättsprocess pågående mot LAION. En fotograf vill ha sina bilder från LAION-databasen borttagna efterhands. I normalfallet finns dessa bilder dock inte längre kvar i LAION (det finns uppgifter som tyder på att detta faktiskt är fallet, vilket dock inte behöver vara nödvändigt för att bygga AI-modeller). Oavsett det här används LAION-databasen världen över av många bilder genererande modeller. En kontroll över enskilda delar (här: bilder) verkar omöjlig.

ChatGPT använde den Common Crawl-databasen för AI-träning. Denna databas är en kopia av vissa delar av internet, som till stor del valts slumpmässigt ut. När det finns en teknisk konvention för ett användningsförbehåll (robots.txt) blir det obehagligt för alla AI-modeller som använder en aktuell Common Crawl-databas. Tills det är så långt ifrån, kommer nog många månader eller några år att gå. Juridiskt finns det också möjligheter till ursäktande. Till exempel kunde OpenAI hävda att man för ett framtida ChatGPT-5 skulle påstå att man hade ChatGPT-4 som grund (Fine-Tuning), istället för att träna version 5 från grunden om. Databasen för ChatGPT-4 verkar vara legitimad av upphovsrätt vad gäller användningsförbehåll, eftersom det i september 2021 nästan inte fanns några användningsförbehåll.

Sammanfattning

Innehållet och konsekvenserna i korthet:

Tekniskt sett är en användningsförbehåll från upphovsmännen som förbjuder AI-modellerna att suga upp deras online tillgängliga verk inte möjligt (i alla fall inte nu).
En användningsföreskrift enligt § 44b UrhG verkar bara i framtiden. Redan tränade kärnmoln förblir så som de är.
Det finns inget samtyckeskrav för upphovsmän av online tillgängliga verk gentemot AI-modeller.
AI-modeller kan inte glömmas och om de gör det är det endast efter stora ansträngningar och med betydande tidsfördröjning.
AI-modeller som inte återtränas, tar hänsyn till användningsförbehåll som gavs efter AI-träningen, inte.
Tiderna är svåra för upphovsmännen. Vad en människa kan och får göra med främmande verk, kan en AI i alla fall göra (och sannolikt faktiskt också).
Nämnda nämnder källorna till ett AI-modell ändrar ingenting, eftersom användningsvillkor hittills praktiskt taget bara har uttalats i enskilda fall.
Google använder uppenbarligen alla crawlers-data både för sökmotorn och Google Bard eller liknande. Därmed är en kontroll för upphovsrättsinnehavare på grund av Googles marknadsmakt i nuläget faktiskt inte möjlig.
Rättsligt är det många ursäkter som kan tänkas för att ge AI-modellerna sken av legitimitet.