Hoe kunnen auteurs hun werken beschermen tegen het gebruik door Kunstmatige Intelligentie?

Auteurs kunnen een gebruiksvoorbehoud uitspreken dat voorkomt dat hun werken door AI-modellen worden gebruikt voor tekst- en data-analyse. Dit voorbehoud moet in een machineleesbare vorm worden verstrekt.

Wat is de rol van het robots.txt-bestand bij de bescherming van online werken tegen AI?

De robots.txt-bestand maakt het mogelijk voor auteurs om bepaalde AI-systemen, zoals zoekmachines en chatbots, te verbieden om hun websites te crawlen. Dit voorkomt dat deze systemen inhoud extraheren en voor trainingsdoeleinden gebruiken.

Hoe kan men effectief voorkomen dat KI-platforms inhoud van het internet verzamelen?

Het is bijna onmogelijk om individuele AI-platforms effectief uit te sluiten, aangezien het aantal onbeperkt is en voortdurend verandert. De beste strategie is om het gebruik van Google-diensten te accepteren of de Google Bot volledig uit te sluiten.

Wat is de rol van robots.txt-bestanden in de context van KI-gebruik door zoekmachines?

Robots.txt-bestanden kunnen worden gebruikt om zoekmachinecrawlers, zoals de Google Bot, uit specifieke delen van een website uit te sluiten. Echter, dit is nauwelijks effectief tegen de toenemende dataverslaving van bedrijven zoals Google.

Waarom kunnen AI-modellen zoals Bard informatie uit online teksten gebruiken zonder auteursrechtelijk inbreuk te maken?

AI-modellen zoals Bard beargumenteren dat ze slechts openbaar beschikbare informatie weerspiegelen die door websites worden getoond. Ze beweren dat ze uw inhoud niet woordelijk reproduceren, maar slechts een semantische interpretatie leveren.

Hoe verklaart men de moeilijkheid om auteursrechten te controleren in AI-modellen?

Vanwege de lange trainingsperiodes en de grote datapunten intervallen bevatten AI-modellen vaak verouderde informatie. Daarnaast reageren ze niet zo snel op wijzigingen of verwijderingsverzoeken als traditionele zoekmachines, wat het controleren van auteursrechten bemoeilijkt.

Waarom kunnen AI-modellen niet vergeten en wat zijn de gevolgen hiervan voor auteursrechten?

AI-modellen bezit geen mogelijkheid om te vergeten, omdat ze informatie uit online teksten opslaan en verwerken. Dit betekent dat ook na lange tijd en zonder blokkades inhoud uit het model niet kan worden verwijderd, wat de controle over auteursrechten verder bemoeilijkt.

Wat zijn de belangrijkste problemen met AI-gestuurde zoekmachines zoals Bing?

AI-zoekmachines zoals Bing kunnen onjuiste antwoorden genereren die gebaseerd zijn op hallucinaties. Een ander probleem is het ontbreken van 'grounding', d.w.z. de verbinding met actuele, betrouwbare informatie, wat kan leiden tot onnauwkeurige resultaten.

Kunstmatige intelligentie: werken van auteurs en hun bescherming

Auteurs van online beschikbare werken hebben volgens de wet de mogelijkheid om een gebruiksvrijwilligheid uit te spreken. Zo moeten werken worden beschermd tegen het binnendringen in elektronische hersenen. Werkt deze aanpak? In dit artikel worden mogelijkheden en beperkingen genoemd.

Inleiding

Kunstmatige intelligentie heeft enorme capaciteiten ontwikkeld, die de gemiddelde intelligente mens vaak aanzienlijk overtreffen. De Turing-test wordt als positief afgerond beschouwd. Deze test beoordeelt of een computer even intelligent is als een mens. Yes, dat is hij nu. Zoals ChatGPT bewijst, kan een AI zelfs in bepaalde gebieden de mens ver overtreffen, tenminste wanneer men het gemiddelde van alle mensen neemt. AI kent geen vermoeidheid en kan altijd betere hardware gebruiken, heel anders dan de mens met zijn zeer beperkte brein. De enige voordelen van de mens zijn volgens mij nog de sensoriek en de capaciteit om de omgeving te verkennen en waar te nemen. Dat zal zich binnenkort aanzienlijk veranderen ten gunste van kunstmatige systemen.

AI-modellen kunnen online teksten en beelden van auteurs bijna onbeperkt opsnuiven, en dat rechtsgeldig. Het wetsvoorstel geeft auteurs het recht op een gebruiksvoorbehoud, waarvan er in feite geen sprake is. De redenen zijn puur organisatorisch en technisch van aard.

Deze verbazingwekkende vaardigheden van AI beangstigen tegelijkertijd. Auteurs maken zich zorgen dat hun werken nu door een elektronisch brein worden opgeslokt en verwerkt. Google heeft dit al gedaan, maar niet zo veel mensen waren opgewonden: Iemand geeft een zoekwoord in de zoekmachine in. In plaats van dat uw website met het zoekwoord passend verschijnt en u de gebruiker kunt vangen en voor uw legitieme doeleinden kunt gebruiken, wordt de antwoord als extractie van uw inhoud in de zoekmachine gegeven. De gebruiker landt zelfs niet op uw website, maar wordt eerder afgesloten. U bent de content-leverancier en de domme. Google is blij. Voor de gebruiker maakt het niets uit.

Uit dit is voortgekomen de eis van een toestemmingsplicht. De auteur moet dus toestemmen dat zijn werk door een AI wordt gebruikt. Andere eisen alleen wat in de wet staat, namelijk een keuzemogelijkheid. Deze is in § 44b Abs. 3 UrhG vastgelegd en wordt daar zo geformuleerd:

Gebruiken naar artikel 2 lid 1 [Vervielfoudigingen van rechtmatig toegankelijke werken voor het Text and Data Mining] zijn alleen toegestaan, als de rechthebbende zich deze niet heeft voorbehouden. Een gebruiksvoorbehoud bij online toegankelijke werken is alleen dan effectief, wanneer dit in machinaleesbare vorm geschiedt.
Artikel 44b, lid 3 van de Uitvoeringswet auteursrecht

Verdere kopieën van auteurswerken voor doeleinden van kunstmatige intelligentie moeten verwijderd worden, zodra ze niet meer nodig zijn. Dat is echter geen probleem, want als je een tekst goed hebt gelezen, weet je dan ook zonder het origineel wat de tekst bedoeld heeft. Zo werkt het ook met een AI.

De voorwaarde van gebruik vanuit technisch oogpunt

Online beschikbare werken zijn bijvoorbeeld websites, verlinkte PDF-bestanden, afbeeldingen, audio-bestanden, broncodebestanden of gratis e-boeken. Auteurs van dergelijke werken hebben volgens § 44b UrhG geen toestemmingsrecht (toestemmingsteken), maar alleen een opt-outmogelijkheid. Wanneer de auteur het signaal voor opt-out niet geeft, mag zijn tekst volgens de genoemde wetgeving worden gelezen en gebruikt worden voor text and data mining. Onder deze Grondverweringprocessen begrijp ik ook toepassingen van kunstmatige intelligentie. Met deze opvatting ben ik waarschijnlijk niet alleen.

Overigens is de term Uitstapje nemen eigenlijk geen synoniem voor gebruikvoorbehoud. Want een Opt-Out werkt ook in het verleden, terwijl een gebruikvoorbehoud alleen in de toekomst geldt. Is het gebruikvoorbehoud pas na een leesactie door een crawler gegeven, dan heeft het ten aanzien van deze leesactie geen effect.

Hoe ziet een afwijzingsmogelijkheid technisch eruit?

Voor zoekmachines en andere crawlers is deze mogelijkheid al beschikbaar. Deze wordt gegeven door de robots.txt-bestand. Dit bestand volgt een algemeen vastgestelde, verder verspreide en algemeen bekende conventie. Elke zoekmachine die wil doen alsof ze rechtsconform is, respecteert dit bestand.

De robots.txt-bestand van een website is beschikbaar onder de hoofdpad, dus bijvoorbeeld onder dr-dsgvo.de/robots.txt. Hij ziet er voor mijn blog zo uit:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Opmerking: Ik gebruik ook een dynamische bot-beveiliging die enkele zoekmachines blokkeert.

In mijn robots.txt-bestand is geregeld dat het Internet Archief mijn website niet mag lezen. Dit wordt aangegeven door de User-Agent ia_archiver en de directie Disallow. Eveneens verbied ik ChatGPT om te crawlen, zoals uit de spreken User-Agent ChatGPT-User kan worden opgemaakt.

Welke User-Agent naam voor welke zoekmachine, welk crawler en welke AI-platform te gebruiken is, is ad hoc onbekend. Grote platformen publiceren de of de namen van hun crawlers (User-Agents). Een crawler is een programma dat online beschikbare inhoud afgrast.

Het hele principe van de robots.txt-bestand is gebaseerd op conventies. Technisch gezien is het proces heel eenvoudig. Is deze conventie er niet, dan is dit proces er ook niet.

De voorbehoudsrecht van online beschikbare werken tegenover een AI is voor auteurs feitelijk niet mogelijk. De reden is de ontbrekende technische conventie. Reeds getrainde AI-modellen overwegen sowieso geen voorbehalte die pas na het trainingsproces zijn uitgesproken.
Verwijst naar artikel 44b, lid 3 van de Uitvoeringswet auteursrechten.

Veronderst u dat u een nieuwe AI-platform wilt blokkeren, dat gisteren in de pers bekend werd, hoe doet u dat? Eerst wist u nog niets van dit platform en kon dus ook niet op zoek gaan naar het user-agent van dit platform dat u vandaag wilt blokkeren. Toch zou een Roland of een Susi zelfs een eigen AI-model kunnen bouwen en hiervoor met een eigen crawler inhoud uit het internet zuigen.

Ze moeten voor alle mogelijke AI-platformen de technische namen vinden, dus ook voor mijn platform, voor de platforms van alle Rolands van 1 tot 5000, voor de AI-platforms van alle Susis van 1 tot 13847, voor de experimenten van Elon, voor die van uw buurman, voor die van alle AI-bedrijven uit de VS e.d.

AI-platformen kunnen momenteel alleen individueel en pas nadat bekend is dat de platform bestaat, worden afgeschermd van online beschikbare inhoud.
Technical feit.

Het is duidelijk dat dit project tot mislukken gedoemd is. Ten eerste kennen jullie niet alle AI-platforms. Ten tweede willen jullie zelfs niet alle AI-platforms kennen, want dan zouden jullie dag en nacht moeten zoeken of zich technisch aan een mogelijk kostenverplichte of negatief op de vindbaarheid werkende dienst moeten koppelen die dag en nacht zoekt. Want jullie willen immers niet alle zoekmachines blokkeren, maar alleen de slechte AI-platforms en misschien ook slechte zoekmachines.

Soms zult u een bestand hebben met uitgesloten records, dat er zo uit zou kunnen zien. Aan het einde van de regels heb ik fictieve datumwaarden als opmerking toegevoegd, waarop u de betreffende record hebt ingevoerd om een bepaalde AI-scrapper uit te sluiten.

#Your robots.txt File
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2023
Disallow: /

Het is ook mogelijk om generieke inzendingen te definiëren door joker-teken te gebruiken. Hierdoor worden echter mogelijk te veel crawlers geblokkeerd. Het kan ook zijn dat sommige crawlers dan nog steeds niet gestart zijn.

Het probleem wordt nog groter, en dat in tenminste twee opzichten.

De marktmacht van Google en Meta

Ik probeerde op 31.07.2023 te ontdekken hoe de technische namen van de AI-scrapers van Google en Meta luiden, om ze zo uit te schakelen. Google Bard is net als Meta LLAMA 2 een bekend taalmodel. Ik wil niet dat mijn inhoud daar verschijnt zonder dat ik ervoor geld krijg. In ieder geval verdienen Google en Meta zichzelf met mijn en uw data een gouden neus. Van mij zijn er dus vrijwillig geen gratis inhoud voor hun AI.

Google legt in zijn gegevensbeschermingsinformatie, die vanaf 01 juli 2023 gelden, het volgende uit:

Bijvoorbeeld verzamelen we gegevens die online of in andere openbare bronnen beschikbaar zijn om de AI-modellen van Google te trainen en producten en functies als Google Vertaler, Bard en Cloud AI verder te ontwikkelen. Als uw bedrijfsinformatie op een website verschijnt, kunnen we ze indexeren en in Google-diensten tonen.
Bron: S. 32 van de bovenvermelde Google-gegevensbeschermingsinformatie.

Het is bijna zeker dat Google zijn zoekmachinecrawler ook gebruikt om de ingelaste inhoud te gebruiken voor het trainen van de Google-AI. Google heeft geen interesse in het uitleggen dat dit niet zo is. Als bewijs daarvoor geef ik hier een vraag uit het Google Support Forum van 29 maart 2023 weer:

Bron: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de (afbeelding is automatisch vertaald).

Een antwoord op deze belangrijke vraag is vier maanden na het stellen van de vraag nog steeds niet beschikbaar. Bovendien heeft Google de vraag geblokkeerd, waardoor geen antwoord meer mogelijk is. zelfs als iemand zou ontdekken hoe de Google AI-Bot geblokkeerd kan worden, zou deze informatie van algemeen belang niet in het supportforum van Google verschijnen.

Bij Meta (Facebook, Instagram, WhatsApp) lijkt hetzelfde te gelden. Ik kon in ieder geval geen technische naam van een Meta-Crawler vinden die wordt gebruikt voor de training van kunstmatige intelligentie.

Uitgaan is dus precies één optie (bij Google): Ofwel u blokkeert de hele Google-Bot en verschijnt niet meer of nauwelijks in het zoekresultaat van Google. Ofwel u laat toe dat Google uw online beschikbare inhoud en werken gebruikt voor alle mogelijke doeleinden die Google zich voorbehoudt.

Als iemand Google van zijn website wil uitschakelen, is hier de instructie voor het robots.txt-bestand:

User-agent: Googlebot
Disallow: /

Wanneer als waarde voor het parameter Disallow een dieper pad wordt opgegeven, betreft de blokkering alleen de aangegeven onderdelen van uw website. Er zijn dus maar weinig mogelijkheden om tegen de data-insamelpieke van Google te vechten. Bovendien vind ik het bewonderenswaardig dat u bovendien via uw website nog meer gegevens over uw website-gebruikers aan Google doorgeeft en Google zo machtiger maakt. U werkt hard, zodat Google nog machtiger wordt, en dat allemaal zonder beloning en meestal zonder juridische grondslag. In ieder geval gebruikt u de moeite die u besteedt om plugins als Google Fonts, Google Maps of Google Analytics in plaats van lokale lettertypen, een datenschutzfreundelijke kaart of Matomo te installeren.

Google argumenteert naar mijn mening als volgt:

Gegevensbescherming: „Wij, Google, verwerken helemaal geen persoonsgegevens.” Google wil kennelijk niet weten wat gegevensverwerking is en legt de Google Tag Manager daardoor uit voor arbeidsongeschikt.
Kunstmatige intelligentie:
- Fall a: Uw persoonlijke gegevens verschijnen in de AI-antwoord van Google Bard. Google zal zeggen: "Maar u hebt deze informatie toch openbaar gemaakt. Wij laten alleen zien wat uw website iedereen laat zien die uw pagina bezoekt."."
- Uw bijdragen worden weergegeven in uw eigen woorden en niet als een opmerkelijk citaat van Google Bard als antwoord op vragen van gebruikers aan de Google-AIherhaald. Google zal waarschijnlijk zeggen: "Onze uitgaven zijn geen auteursrechtenschendingen, want we geven uw inhoud toch helemaal niet in een opmerkelijke vorm weer, maar in heel andere woorden

Auteurs van online teksten worden vaak niet geïnformeerd over het geval 2 b). Het geval 2 a) bevat een aantal sensibele aspecten, zoals ik hieronder zal uitleggen.

Kom dan maar naar het volgende probleem voor auteurs die hun werken niet willen gebruiken in een AI.

Beleten werkt in de toekomst

ChatGPT-4 is gebaseerd op een dataset van september 2021. Ik wist zelfs in 2022 niets van ChatGPT en heb er hooguit even over gehoord. Het zou dus voor de meesten niet mogelijk zijn geweest om een blokkade te definiëren voor eigen werk, die ChatGPT de toegang tot het eigen werk verbiedt.

Alle inhoud die voor het instellen van een blokkering door ChatGPT of andere AI-modellen is gelezen, zit al in de elektronische hersenen. Daaraan verandert ook laterale blokkeringen van een auteur niets. Zijn werken zijn al opgezogen. Alleen nieuwe werken of updates worden helaas niet meer door een derde-AIverworven.

Gegevens uit AI-modellen zijn nauwelijks verwijderbaar

Gebruiksvoorbehouden van auteurs kunnen niet zo eenvoudig en snel worden meegenomen als in conventionele zoekmachines. Misschien kan dat ook helemaal niet achteraf.

Zelfs in grote zoekmachines duurt het soms dagen of weken voordat een verzoek om verwijdering is uitgevoerd. Ik kan hier uit ervaring spreken. Een Duitse stad had een datalek en vroeg me om bij de opschoning van persoonsgegevens uit de grote zoekmachines te helpen. De laatste ongewenste treffers waren pas na meerdere weken verdwenen.

Zoals ik weet, is niemand verplicht om een AI-model na het initiële training nogmaals te trainen. Zonder hertraining blijven alle gegevens die voor het model zijn ingelezen in het model behouden. Alleen worden de gegevens niet in hun oorspronkelijke vorm opgeslagen, maar wordt hun structuur of essentie opgeslagen. Precieser kan men het waarschijnlijk niet zeggen. Ik verwijs naar het menselijk brein en zijn schwammige speelervorm voor informatie.

AI-modellen als elektronische hersenen kunnen niet vergeten.
Mijn huidige kennisstand. Laat me weten als ik fout zit.

Een AI-model dat blijft zoals het is, verwijdert geen data, die online ingelaste werken van auteurs betreffen. Ook in andere gevallen worden geen data uit AI-modellen verwijderd. Zelfs AI-modellen die opnieuw getraind worden, hebben vaak dit probleem. Bij ChatGPT is versie 3.5 momenteel in Duitsland beschikbaar. Het heeft weinig nut om een gebruiksvoorbehoud van een auteur te hebben als deze inhoudsbeperking alleen op ChatGPT-4 werkt, maar niet op versie 3.5.

Selbst als elk groter en daardoor potentieel machtig AI-model steeds weer van nul opnieuw getraind zou worden, zou de vertraging enorm zijn. Bloomberg-GPT is een AI-model voor financiële gegevens. Hiervoor zouden miljoenen uren duurste rekenkracht gebruikt worden, door het gebruik van waanzinnig veel high-performance grafische kaarten voor de berekening. Het kan simpelweg niet worden aangenomen dat Bloomberg-GPT elke maand in een nieuwe versie verschijnt. In plaats daarvan zijn jaarlijks tijdvakken aan te nemen.

Om ongewenste informatie uit een AI-model te laten verdwijnen, zou het moeten worden_grounded_. Dit proces is echter onzeker en meer geschikt om vals nieuws te elimineren door correcte informatie in de plaats te stellen. De Gedragsvermogen van vergetelheid hebben AI-modellen naar mijn weten niet. Ook de mens kan niet echt goed vergeten. Vaak volstaat een ankerpunt of stimuluswoord om een vergeten geloofde herinnering weer op te roepen. Dat we mensen ons niet meer aan alles herinneren, ligt mogelijk eerder aan het feit dat onze hardware in ons hoofd niet op persistente is ingesteld. Anders ziet het er bij elektronische hersenen uit. Zolang genoeg stroom of back-ups beschikbaar zijn, zijn de in het geheugen verankerde informatie onuitwisbaar.

AI tegen zoekmachine

Een kunstmatige intelligentie is geen zoekmachine, als men de funktionele kant bekijkt. Zeker kunnen met een taalmodel ook feiten worden gehaald. Deze feiten zijn echter vanwege de lange trainingsperiode en de ver uiteengezette trainingsmomenten vaak verouderd. Actuele feiten zijn in AI-modellen zo goed als niet te vinden.

Voor een exacte zoekopdracht, zoals klassieke zoekmachines het uitstekend doen, is een AI-systeem van nature niet geschikt. In plaats daarvan lijkt een AI-systeem op een semantische, structurale of onscherpe zoekopdracht.

Technisch gezien spreekt men bij een AI-systeem van een Vectorzoekmachine.

Vanuit het oogpunt van gegevensbescherming is het immers niet uit te maken hoe een systeem in elkaar zit. Personen hebben als eigenaren van hun gegevens het recht op verwijdering uit zoekresultaten (EU-rechtbank von 24.09.2019, zaaknr.: C-507/17). Dus moet Google ervoor zorgen dat persoonsgegevens bij verzoek van de gegevensbezitter uit zoekresultaten verdwijnen. De antwoorden op een vraag aan een AI zijn ook persoonsgegevens.

In de zoekmachine Bing bijvoorbeeld kunnen naast normale zoektermen sinds kort ook complexere vragen gesteld worden. Bing beantwoordt deze vraag met behulp van zijn kunstmatige intelligentie. Alleen hieruit wordt duidelijk, dat het voor een uitlistingsbegeerte van een persoon geen verschil kan maken of het betreffende systeem een klassieke zoekmachine als DuckDuckGo is, een AI-gesteunde zoekmachine als Bing of een chatbot als ChatGPT.

Naast dit dient opgemerkt te worden dat Bing vaak verkeerde antwoorden geeft. Dit heeft minder met hallucinaties te maken, maar meer met alternatieve waarheden die helaas vaak als waarheid worden beschouwd. Volgens Bing zijn cookies tekstbestanden.

Aanvraag bij Bing van 31.07.2023. Mijn bijdrage beweert het tegenovergestelde, maar wordt wel als bron vermeld. (afbeelding is automatisch vertaald).

Verwijzen wordt als bewijs voor de Bing-antwoord ook naar mijn bijdrage. Ik bewijs in deze bijdrage precies het tegenovergestelde. Met een gegevensvriendelijk AI-systeem, dat door ondernemingen zelf en zonder Microsoft, Google of ChatGPT kan worden bedreven, zou dit niet zijn gebeurd. De Bing-AIis dus gevaarlijk en geeft geen enkel signaal hiervan. In plaats daarvan wordt als andere zoekterm voorgesteld: „Zijn cookies gevaarlijk?“.

Verwijdbare informatie in zoekmachines voor kunstmatige intelligentie

Een AI is geen zoekmachine, maar wordt soms op een dergelijke manier gebruikt, zoals Bing aantoont. Het voorteken ontstond uit de bronnenbehoefte (hardware, rekenkracht) en is als volgt:

Een AI doorzoekt de hele documentencollectie, die zoekindex genoemd wordt. Dit is analoog aan een zoekmachine, die echter exact of nauwkeuriger zoekt dan een AI.
De beste documenten die op de vraagstelling aanspreken worden geselecteerd.
De AI wordt de vraag alleen gesteld tegen de uitgekozen documenten.
De AI reageert met het kennis uit de geselecteerde documenten en maakt daarbij gebruik van haar taalkundige vaardigheden.

Dus kunnen documenten uit de zoekindex van een AI-zoekmachine verwijderd worden, net als bij een conventionele zoekmachine. Echter zijn dergelijke AI-zoekmachines, zoals ik ze hier wil noemen, vrij onbetrouwbaar, zoals Bing aantoont. Bing is dus in het eindresultaat niet echt bruikbaar en al helemaal niet voor documenten uit eigen bedrijf.

De hallucinaties van een AI, zoals die in de door AI aangedreven Bing-zoekmachine waarneembaar zijn, kunnen voorkomen worden in eigen bedrijfs-AI-systemen.
Neem contact met mij op als je geïnteresseerd bent.

Wat Bing mist, is een effectief aardingsmechanisme. Bing kan dat niet leveren omdat de middelen daarvoor bij Microsoft nog te schaars zijn. Dat is in ieder geval mijn aanname op basis van kennis van de technische details van AI-modellen en hun hardware-eisen.

Betaalbaarder ziet het er bij eigen AI-systemen van de onderneming uit, waarover een aparte bijdrage op Dr. GDPR binnenkort zal verschijnen. Deze systemen kunnen grounding toepassen en zo twee voordelen combineren:

Actueel weten is beschikbaar.
Antwoorden op vragen die aan dit weten worden gesteld zijn zeer precies.

Hallucinaties kunnen in lokale AI-systemen, die niets met Microsoft, Google, Meta of ChatGPT te maken hebben, dus worden voorkomen. Maar alleen in lokale systemen. Hebben jullie ook al eens nagedacht over een dergelijk AI-systeem voor uw bedrijf? Het kost geen fortuin.

Tekst, beeld en andere media: auteursrecht?

Wat voor online beschikbare teksten geldt, geldt ook voor online beschikbare beelden. Hier is het dilemma misschien nog groter, want een door AI gegenereerd beeld ziet men volgens mijn tests heel vaak niet meer aan, uit welke bronnen het afkomstig is. In elk geval worden bij beeldgeneratoren zoals Midjourney of DALL-E meerdere of zelfs veel beelden gecombineerd. De LAION-5B dataset, die heel vaak wordt gebruikt met Stable Diffusion beeldverfahren, maakt het mogelijk om een gelijkeniszoektocht voor beelden uit te voeren.

Ik heb de volgende stappen met het LAION-dataset uitgevoerd om te zien of gegenereerde AI-beelden overeenkwamen met het online beschikbare bronmateriaal waren:

Een afbeelding genereren met behulp van een AI-afbeeldengenerator.
Voor dit beeld zijn soortgelijke beelden in de LAION-database gezocht, die bijna zes miljard beelden omvat.
De overeenkomst van het gegenereerde beeld met afbeeldingen uit de dataset what iedere keer zo gering dat ik als mens zelfs bij een zeer streng onderzoek geen auteursrechtelijke inbreuk kan ontdekken.

Mijn tests waren echter niet uitputtend, maar slechts sporadisch. Ik heb al duizenden AI-beelden met een lokaal AI-systeem gegenereerd.

AI-image generatoren produceren heel vaak beelden die volledig verschillend zijn van de bronbeelden (trainingsgegevens). Daarmee raakt het auteursrecht hier niet meer van toepassing.
Voor het trainen moeten in tegenstelling de voor modellen van kunstmatige intelligentie zeer gunstige omstandigheden uit het UGB gehouden worden.

Ik zie bij teksten regelmatig dat een weergave door het AI-model van mijn keuze plaatsvindt in een vorm die aanzienlijk verschilt van het oorspronkelijke werk. Daardoor lijkt me de vraag naar het originele werk hier niet relevant. Dat hoeft niet altijd zo eenduidig te zijn als uitspraken over gedichten bewijzen. Als echter een bedrijf een AI-model gebruikt, kan het deze problematiek meerdere keren tegengaan.

Eerstens kunnen autarke AI-systeem met vrijwillig gekozen trainingsgegevens uitgerust worden. Ten tweede kan de uitvoer niet-openbaar zijn, bijvoorbeeld in het bedrijfsnetwerk. De jurist weet beter dan ik, in welke mate hierdoor het auteursrecht wordt ontzenuwd. Fest staat: „Wat ik [als auteur] niet weet, maakt me niet warm.“ Het risico van de niet-openbare gebruik van gegevens is eveneens aanzienlijk lager dan bij het tonen van de resultaten. Derde, kunnen bedrijfs-eigene AI-systeem met verfremdingsmechanismes van elke soort uitgerust worden. Het beste is de economischheid. Wat vroeger een vermogen kostte, is vandaag betaalbaar. Uw onderneming heeft geen behoefte aan ChatGPT (en als dat wel zo what, zou ik graag willen weten waarom). Als zoekmachine in elk geval niet.

Conclusie

Informatie die ooit in een AI-model terecht is gekomen, laat zich niet eenvoudig uit dit elektronische brein wissen. Het lijkt nog moeilijker om te voorkomen dat eigen online werken in AI-modellen landen.

Dus zijn eigen inhoud is gedoemd om opgeslokt te worden door grote AI-platformen. De tegenstelling tegen het opslokken is weliswaar in de vorm van een uitlijsting mogelijk, maar betreft dat misschien niet alle soorten werken. Persoonsgegevens zijn zo beter beschermd dan teksten, waarvan Essentie door de derde-AIassimiliert en daardoor de controle over het origineel van de auteur ontnomen wordt.

Google werkt vooral sluipenderwijs en gebruikt alle ingelezen inhoud voor alle legitieme doelen. Daarbij hoort zowel de zoekmachine als de AI genaamd Google Bard, evenals alles wat Google nog zal bedenken. Het lijkt er bij Meta op dat hetzelfde gebeurt.

Tekst die niet voornamelijk als kennisartikel geschreven zijn, ontsnappen mogelijk aan AI-modellen. Want het belangrijke staat daar vaak tussen de regels.

Auteurs van online beschikbare werken zullen op korte termijn geen mogelijkheid hebben om een AI de gebruikmaking van hun werken te verbieden.
Zie het artikel.

De Nutzungsvorbehalt van auteurs ten aanzien van hun online beschikbare werken is feitelijk onreglementeerd en dus in de praktijk nauwelijks mogelijk. Slechts voor wereldberoemde systemen als ChatGPT kan deze voorbehoud van auteurs op een beperkte manier worden gerealiseerd.

Toch kunnen informatie uit kunstmatige intelligentiemodellen niet snel verwijderd worden. In plaats daarvan zou een kunstmatig intelligentiemodel van nul opnieuw getraind moeten worden, wat heel tijdrovend is en dus maar zelden gebeurt. Tot die tijd zijn in ieder geval de eigen werken beschikbaar in een vreemde AI zonder dat de maker daarvan iets weet.

Het is niet uit te sluiten dat er mathematische benaderingen zullen zijn om doelgericht enkele gegevens uit een AI-model te wissen. Daarvan heb ik nog niets gehoord en kon ik daar ook niets concrets over vinden. Ik vind het ook moeilijk en geloof eerder niet dat er zo'n mechanisme in praktische vorm zal zijn binnen de komende 12 maanden.

Zolang de technisch simpele taak van het gebruiksvoorbehoud niet opgelost is, zijn alle inhoudscreëlers in ieder geval slechter af dan ze zich wensen.

Waarschijnlijk worden op EU-niveau wettelijke regelingen vastgesteld om de gegevens van auteurs beter te beschermen tegen een afgraving door AI-scrapers. Maar het is nu al te laat voor dat en nog veel meer als deze wettelijke regelingen van kracht worden. De domme zijn weer de kleinere ondernemingen. Google en andere conglomeraten gebruiken gewoon verder de schatkist aan gegevens uit het internet (tenzij u niet meer in de Google zoekmachine wilt verschijnen). Wie grote scrapers bedrijft kan ook lang nadat inhouden zoeken die niet zijn verboden.

Techniek overtreft recht, omdat techniek met lichtsnelheid plaatsvindt en recht op schrothandelstempo.

Momenteel is er een rechtszaak aanhangig tegen LAION. Een fotograaf wil zijn foto's uit de LAION-database laten wissen, maar deze zijn in het normale geval al niet meer bij LAION opgeslagen (er zijn aanwijzingen dat dit ook zo is, hoewel dit niet nodig is om AI-modellen te creëren). Ongeacht dat wordt de LAION-database wereldwijd gebruikt door vele beeldgeneratormodellen. Een controle over individuele onderdelen (hier: foto's) lijkt onmogelijk.

ChatGPT gebruikte de Common Crawl-dataset voor AI-training. Deze dataset is een kopie van enkele delen van het internet, waarvan sommige willekeurig zijn geselecteerd. Zodra er een technische conventie bestaat voor een gebruiksvoorbehoud (robots.txt), wordt het ongemakkelijk voor alle AI-modellen die een actuele Common Crawl-dataset gebruiken. Totdat dat zo is, zullen er nog vele maanden of enkele jaren overheen gaan. Juridisch gezien zijn er ook mogelijkheden om uit te komen. Bijvoorbeeld zou OpenAI kunnen beweren dat ze voor een toekomstig ChatGPT-5 hebben gebruikt (Fine-Tuning), ChatGPT-4 als basis in plaats van de versie 5 vanaf het begin opnieuw te trainen. De dataset voor ChatGPT-4 lijkt tenminste wat betreft gebruiksvoorbehalen door auteursrechtelijk legitiem te zijn, omdat er in september 2021 bijna geen gebruiksvoorbehalen waren.

Samenvatting

De essentie van het bijdrage en de gevolgen in samenvatting:

Technisch is een gebruiksvrijheid van auteursrechtgevers die het AI-modellen verbiedt om hun online beschikbare werken op te zuigen, niet mogelijk (in ieder geval nu nog niet).
Een gebruiksvoorbehoud volgens § 44b Auteurswet werkt alleen op de toekomst. Reeds getrainde AI-modellen blijven zo, zoals ze zijn.
Er is geen voorbehoud van toestemming nodig voor auteurs van online beschikbare werken tegenover AI-modellen.
AI-modellen kunnen niet vergeten, en als dat dan wel gebeurt, dan alleen met grote moeite en met aanzienlijke tijdsvertragingen.
AI-modellen die niet opnieuw getraind worden, beschouwen gebruikvoorbehouden die pas na het AI-trainingsprogramma zijn gegeven, niet.
Op auteurs wacht een moeilijke tijd. Wat een mens met vreemde werken kan doen en mag, kan een AI nog veel beter (en waarschijnlijk ook feitelijk).
De opgave van de bronnen van een AI-model verandert niets, omdat gebruiksvoorbehouden tot nu toe praktisch alleen afzonderlijk kunnen worden uitgesproken.
Google gebruikt uiteraard alle crawlergegevens zowel voor de zoekmachine als voor Google Bard of soortgelijks. Hierdoor is een controle voor auteurs op basis van Googles marktmacht momenteel feitelijk niet mogelijk.
Rechtelijk zijn er talrijke uitvluchten mogelijk om AI-modellen de schijn van legitimatie te geven.