Gli autori di opere accessibili online hanno secondo la legge la possibilità di esprimere un diritto di utilizzo riservato. In questo modo si vogliono proteggere i lavori da entrare in "teste elettroniche". Funziona questo approccio? Nel contributo vengono nominate le possibilità e le limitazioni.
Introduzione
Intelligenza artificiale ha enormi capacità sviluppate, che spesso superano notevolmente quelle della persona media. Il test di Turing è considerato positivamente concluso. Questo test verifica se un computer sia altrettanto intelligente di un essere umano. Sì, lo è ormai. Come dimostra ChatGPT, una AI può addirittura superare gli esseri umani in alcuni settori, almeno se si considera la media di tutte le persone. La AI non conosce stanchezza e può contare su hardware sempre più avanzato, molto diversamente dagli esseri umani con il loro cervello relativamente limitato. Gli unici vantaggi dell'uomo sono, a mio avviso, la sensoria e la capacità di esplorare e percepire l'ambiente circostante. Ciò cambierà notevolmente in favore dei sistemi artificiali.
I modelli AI possono aspirare online testi e immagini dagli autori quasi a piacere, e ciò è legittimato legalmente. La legge concede agli autori il diritto di un diritto di utilizzo, che in realtà non esiste. Le ragioni sono di natura puramente organizzativa e tecnica.
Queste straordinarie capacità della IA spaventano a loro volta. I creatori si preoccupano che i loro lavori vengono ora assorbiti e smontati da un cervello elettronico. Google l'ha già fatto, solo che non c'erano così tanti che si erano allarmati: qualcuno inserisce una parola chiave nella motore di ricerca. Invece di mostrare la sua pagina web correlata alla parola chiave e catturare il visitatore per i suoi legittimi scopi, la risposta viene data come estratto del contenuto della pagina web nella motore di ricerca. Il visitatore non arriva nemmeno sulla pagina web, ma viene prima "spennato". Siete il fornitore di contenuti e l'idiota. Google si rallegra. Al visitatore non importa niente.
Dalla stessa è sorta la richiesta di un obbligo di consenso. L'autore dovrebbe quindi permettere alla AI di utilizzare i suoi lavori. Altri chiedono solo ciò che è previsto dalla legge, cioè una possibilità di scelta. Questo è stabilito nel § 44b Abs. 3 UrhG e viene formulato in questo modo:
Le utilizzazioni ai sensi dell'articolo 2 comma 1 [Riproduzioni di opere accessibili per il testo e la data mining] sono consentite solo se l'autore non si è riservato tale diritto. Un vincolo di utilizzo per opere online è efficace solo se viene effettuato in forma leggibile da macchina.
Articolo 44b, comma 3 del Codice di proprietà intellettuale (UrhG)
Inoltre le copie dei lavori dell'autore devono essere eliminate per scopi di intelligenza artificiale non appena non sono più necessarie. Ciò non è un problema, poiché se si legge attentamente un testo, poi senza l'originale si sa cosa dice il testo. Lo stesso fa una IA.
Il vincolo di utilizzo da un punto di vista tecnico
Opere online accessibili sono ad esempio siti web, file PDF collegati, immagini, file audio, file di testo o libri elettronici gratuiti. I creatori di tali opere non hanno secondo il § 44b UrhG il diritto di autorizzazione (richiesta di consenso), ma solo la possibilità di opt-out. Se l'autore non dà il segnale per l'opt-out, il suo testo può essere letto e utilizzato per il data mining in base alla norma citata sopra. Sotto questi processi di scavo capisco anche applicazioni di Intelligenza Artificiale. Con questa opinione non sono probabilmente solo.
Altre cose, il termine Rifiuto di adesione non è effettivamente un sinonimo di "riserva di utilizzo". Infatti, l'opt-out ha anche effetto sul passato, mentre la riserva di utilizzo si applica solo al futuro. Se la riserva di utilizzo viene stabilita dopo che un crawler ha eseguito una lettura, non avrà alcun effetto su tale lettura.
Come si realizza tecnologicamente un'opzione di revoca?
Per i motori di ricerca e altri crawler esiste già questa possibilità. È data dalla file robots.txt. Questo file segue una convenzione generalmente stabilita, diffusa e comunemente nota. Ogni motore di ricerca che vuole fare finta di essere conforme alle leggi rispetta questo file.
Il file robots.txt di un sito web è disponibile sotto la cartella principale, ad esempio dr-dsgvo.de/robots.txt. Ecco come si presenta per il mio blog:
# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /
Nota a margine: Inoltre utilizzo un bot-schermo dinamico che blocca anche alcune motori di ricerca.
Nella mia file robots.txt è dichiarato che l'Archivio Internet non deve leggere la mia web page. Ciò viene indicato dall'User-Agent denominato ia_archiver e dalla direttiva Disallow (Proibire). Altrettanto proibisco a ChatGPT di eseguire il crawling, come si può intuire dall'User-Agent parlante denominato ChatGPT-User.
Il nome del User-Agent per quale motore di ricerca, quale crawler e quale piattaforma di intelligenza artificiale utilizzare è sconosciuto ad hoc. Le grandi piattaforme pubblicano il o i nomi dei loro crawler (User-Agents). Un crawler è un programma che raccoglie contenuti online accessibili.
Il principio complessivo della file robots.txt si basa quindi su convenzioni. Tecnicamente il procedimento è estremamente semplice. Se non ci sono queste convenzioni, allora non c'è questo procedimento.
La riserva di utilizzo dei lavori accessibili online nei confronti di una IA è per gli autori in pratica impossibile. La ragione è la mancanza di convenzione tecnica. Già modelli di IA addestrati non considerano affatto riserve che sono state dichiarate solo dopo l'addestramento.
Si riferisce al § 44b, comma 3 della legge sull'autore (UrhG).
Supponiamo che vogliate bloccare una nuova piattaforma di intelligenza artificiale, che è stata resa nota ieri dalla stampa. Come fareste? Inizialmente non sapevate nulla di questa piattaforma, quindi non avreste potuto cercare l'agente utente della stessa da bloccare a partire da oggi. Tuttavia, un Roland o una Susi potrebbero costruire un proprio modello di intelligenza artificiale e per farlo potrebbero utilizzare un crawler per raccogliere contenuti dall'internet.
Dovrebbero trovare i nomi tecnici per tutte le possibili piattaforme di intelligenza artificiale, quindi anche per la mia piattaforma, per quelle di tutti i Rolands da uno a 5000, per quelle delle Susis da uno a 13847, per gli esperimenti di Elon, per quelle del tuo vicino, per tutte le aziende di intelligenza artificiale degli Stati Uniti ecc.
Le piattaforme AI possono attualmente essere tenute a distanza solo singolarmente e solo dopo aver conosciuto l'esistenza della piattaforma da contenuti online disponibili.
Fatto tecnico.
È ovvio che questo progetto è destinato a fallire. Innanzitutto non conoscete tutte le piattaforme di intelligenza artificiale. In secondo luogo, non volete nemmeno conoscerle tutte, altrimenti dovreste ricerchiarne giorno e notte o collegarvi a un servizio tecnico che potrebbe essere a pagamento o avere un effetto negativo sulla vostra visibilità, che ricerchi giorno e notte. Poiché non volete bloccare tutte le motori di ricerca, ma solo le piattaforme di intelligenza artificiale cattive e forse anche i motori di ricerca cattivi.
Avrete un file di blocco che potrebbe avere l'aspetto seguente. Alla fine delle righe ho inserito dei valori di data fittizi come commento, ai quali avreste associato il relativo record per bloccare un determinato crawler di intelligenza artificiale.
#Your robots.txt file
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2023
Disallow: /
È anche possibile definire degli entry generici utilizzando i simboli dei jolly. Ciò potrebbe però escludere troppi crawler. Potrebbe anche essere che alcuni crawler non siano ancora partiti.
Il problema diventa ancora più grande, e precisamente in almeno due sensi.
La potenza di mercato di Google e Meta
Ho cercato di scoprire il 31/07/2023 i nomi tecnici dei crawler AI di Google e Meta per poterli bloccare. Google Bard è, come Meta LLAMA 2, un modello linguistico noto. Non voglio che le mie informazioni compaiano lì senza che io riceva soldi in cambio. Dopotutto, Google e Meta si arricchiscono con i dati di me e di voi. Quindi, non ci saranno mai contenuti gratuiti da parte mia per i loro crawler AI.
Google spiega nei suoi avvisi sulla protezione dei dati, che entreranno in vigore dal 01 luglio 2023, quanto segue:
Ad esempio raccogliamo dati disponibili online o in altre fonti pubbliche per addestrare i modelli di intelligenza artificiale di Google e sviluppare prodotti e funzionalità come il traduttore Google, Bard e Cloud AI. Se le informazioni della vostra azienda appaiono su un sito web, possiamo indicizzarle e mostrarle nei servizi di Google.
Da S. 32 delle informazioni sulla privacy di Google citate sopra.
È quasi certezza che Google utilizzi il suo crawler per le ricerche anche per addestrare la sua intelligenza artificiale. Google non ha interesse a darvi e a me la possibilità di contestarlo. Per dimostrarlo, riporto qui una domanda dal forum di supporto di Google del 29 marzo 2023:

Non c'è risposta a questa importante domanda nemmeno quattro mesi dopo che è stata posta. Inoltre, Google ha bloccato la domanda, in modo che non sia più possibile dare una risposta. Anche se qualcuno dovesse scoprire come disattivare il bot di intelligenza artificiale di Google, questa informazione sarebbe di interesse generale e non apparirebbe mai come risposta nel forum di supporto di Google.
Al Meta (Facebook, Instagram, WhatsApp) sembra essere lo stesso. Non sono riuscito a individuare un nome tecnico di un crawler Meta utilizzato per l'addestramento dell'intelligenza artificiale.
Lei ha quindi due possibilità (su Google): o bloccare completamente il bot di Google e non apparire più o quasi mai nei risultati di ricerca di Google, oppure lasciare che Google utilizzi i suoi contenuti e opere online per tutti gli scopi che si riserva.
Per il caso in cui qualcuno vuole escludere Google dalla sua pagina web, ecco l'indicazione per la file robots.txt:
User-agent: Googlebot
Disallow: /
Se viene specificato un percorso più profondo come valore per il parametro Disallow, la restrizione si applica solo alla parte del sito web indicata. Ci sono quindi poche possibilità di contrastare l'ansia di raccolta dati di Google. Peraltro, mi sembra degno di stima che tu ti impegni a trasmettere ulteriori dati dei tuoi utenti sul tuo sito web a Google e così rendere ancora più potente Google. Lavori duramente per rendere Google ancora più potente, senza alcun compenso e spesso senza base legale. In ogni caso, ti dai da fare per sostituire fonti locali con Google Fonts, una mappa di Google o Google Analytics anziché una cartografia rispettosa della privacy o Matomo.
Google sostiene, a mio avviso, che:
- Protezione dei dati personali: „Noi, Google, non elaboriamo affatto dati personali.“ Google sembra non sapere cosa significhi elaborazione di dati e spiega il Google Tag Manager quindi come inabile al lavoro.
- Intelligenza Artificiale:
- La tua informazione personale appare nella risposta di intelligenza artificiale Google Bard. Google dirà: "Ma hai pubblicamente reso disponibili queste informazioni. Mostriamo solo ciò che la tua pagina mostra a chiunque visiti la tua pagina"."
- La vostra contribuzione verrà riportata con le vostre parole e non come citazione rilevante da Google Bard come risposta alle domande degli utenti alla AI di Google. Google dirà probabilmente: "Le nostre spese non sono violazioni dei diritti d'autore, perché non riproduciamo i vostri contenuti in forma rilevante e fedele, ma con parole completamente diverse"
Gli autori di testi online spesso non si rendono conto del caso 2 b). Il caso 2 a) contiene un certo grado di imbarazzo, come mostrerò più avanti.
Passiamo al prossimo problema per gli autori che non vogliono utilizzare i loro lavori in un'intelligenza artificiale.
Blocciamo l'avvenire
ChatGPT-4 si basa su un database del settembre 2021. Io stesso non sapevo nulla di ChatGPT nemmeno nel 2022 e ne ho sentito parlare solo per caso. Quindi sarebbe stato impossibile per la maggior parte delle persone definire una censura per i propri lavori che impedissero a ChatGPT l'uso dei propri lavori.
Tutti i contenuti letti prima dell'imposizione di un blocco da parte di ChatGPT o altri modelli AI sono presenti nel cervello elettronico. Anche se successivamente un autore impone un blocco, le sue opere sono già state prese in considerazione. Speriamo che solo nuove opere o aggiornamenti non vengano più sfruttate da una AI di terze parti.
I dati provenienti dai modelli di intelligenza artificiale sono a malapena cancellabili
I diritti di utilizzo dei titolari del copyright non possono essere considerati così facilmente e rapidamente come nelle consuete motori di ricerca, forse nemmeno a posteriori.
Anche in grandi motori di ricerca ci vogliono davvero alcuni giorni o settimane, prima che un richiesta di cancellazione venga eseguita. Posso parlare qui dalla mia esperienza. Una città tedesca aveva una perdita di dati e mi ha chiesto di aiutare a elencare i dati personali dai grandi motori di ricerca. I risultati non desiderati sono spariti solo dopo alcune settimane.
Siccome so mi pare, nessuno è tenuto a ristrutturare un modello di intelligenza artificiale dopo l'allenamento iniziale. Senza ulteriore allenamento, però, tutte le informazioni che sono state lette per creare il modello rimangono nel modello. Tuttavia, non vengono archiviate nella loro forma originale, ma si conserva la loro struttura o essenza. Più precisamente non si può dire altro. Mi riferisco al cervello umano e alla sua Forma di archiviazione sfumata per le informazioni.
I modelli AI come cervelli elettronici non possono dimenticare.
Il mio attuale livello di conoscenza. Per favore, informatemi se mi sbaglio.
Un modello di intelligenza artificiale che rimane come è non cancella alcun dato, riguardante opere online dei loro autori. Anche in altri casi non si cancellano dati dai modelli di IA. Persino i modelli di IA che vengono riaddestrati spesso presentano questo problema. Al momento, la versione 3.5 di ChatGPT è utilizzabile in Germania. Non serve molto a poco un diritto d'autore di utilizzo se l'blocco del contenuto si applica solo a ChatGPT-4 e non alla versione 3.5.
Anche se ogni modello di intelligenza artificiale più grande e quindi potenzialmente più potente venisse riaddestrato da zero ogni volta, la ritardante sarebbe immensa. Bloomberg-GPT è un modello di intelligenza artificiale per dati finanziari. Per questo si utilizzerebbero milioni di ore di prestazioni di calcolo costose, con l'impiego di migliaia di schede grafiche ad alta prestazione per i calcoli. Non può essere preso in considerazione che Bloomberg-GPT appaia ogni mese in una nuova versione. Piuttosto si dovrebbero considerare periodi di anni.
Per far scomparire informazioni non desiderate da un modello di intelligenza artificiale, si dovrebbe probabilmente "terrarla" (grounding). Questo procedimento è però incerto e più adatto a eliminare false informazioni sostituendole con quelle corrette. Le abilità del dimenticato non hanno i modelli di intelligenza artificiale, secondo la mia conoscenza. Anche l'uomo non riesce a dimenticare veramente bene. Spesso basta un punto di riferimento o una parola stimolo per riportare alla mente una memoria creduta dimenticata. Che noi esseri umani non ci ricordiamo più di tutto, potrebbe dipendere dal fatto che il nostro hardware nel capo non è predisposto per la persistenza. Al contrario, i cervelli elettronici hanno un aspetto diverso. Finché c'è abbastanza corrente o backup, le informazioni impiantate nel cervello sono indelebili.
Cerca Internet contro Motore di ricerca
Una Intelligenza Artificiale non è una motosecca, se si considera la fase funzionale. Sì, con un modello di linguaggio possono essere estratte anche informazioni di fatto. Queste informazioni sono però spesso obsolete a causa della lunga durata del training e degli intervalli di allenamento molto distanziati. Le informazioni attuali non si trovano invece in modelli AI.
Per una ricerca esatta, come le classiche motori di ricerca la svolgono egregiamente, un sistema di intelligenza artificiale non è adatto per natura. Al contrario, un sistema di IA si avvicina a una ricerca semantica, strutturale o vaga.
Tecnicamente si parla di una Calcolatrice vettoriale in un sistema di intelligenza artificiale.
Dal punto di vista del trattamento dei dati, però, è indifferente come sia strutturato il sistema. Le persone hanno il diritto di essere eliminate dai risultati delle ricerche (sentenza della Corte di Giustizia dell'Unione Europea del 24/09/2019, causa C-507/17). Quindi Google deve assicurarsi che i dati personali scompaiano dai risultati delle ricerche a richiesta del titolare dei dati. Le risposte della IA alle domande di ricerca sono anche dati personali.
In ad esempio la motore di ricerca Bing è possibile formulare espressioni di ricerca normali e domande complesse, da poco tempo in poi. Bing risponde a questa domanda utilizzando l'aiuto della sua intelligenza artificiale. Da ciò si può capire che per un desiderio di elencazione di una persona non fa differenza se il sistema coinvolto è una classica motore di ricerca come DuckDuckGo, una motore di ricerca basato su IA come Bing o un chatbot come ChatGPT.
Accanto a ciò, è da notare che Bing fornisce spesso risposte false. Ciò non ha nulla a che fare con le allucinazioni, ma piuttosto con verità alternative che purtroppo vengono spesso considerate come vere. Secondo Bing, i cookie sono file di testo.

Si fa riferimento a il mio contributo. In questo contributo dimostro esattamente l'opposto. Con un sistema di intelligenza artificiale amichevole con i dati, che possono essere gestiti da qualsiasi azienda, anche senza Microsoft, Google o ChatGPT, ciò non sarebbe accaduto. La AI di Bing è quindi pericolosa e non ne dà nemmeno l'avviso. Al suo posto viene suggerito un altro termine di ricerca: "Sono i cookie pericolosi?".
Informazioni cancellabili nelle ricerche di intelligenza artificiale
Una AI non è una ricerca, ma viene utilizzata in parte come tale, come mostra Bing. Questo approccio è nato dalla carenza di risorse (hardware, tempo di calcolo) e consiste nel:
- Una IA esplora l'intero archivio di documenti, chiamato indice di ricerca. Ciò è analogo a una motore di ricerca, che però cerca esattamente o più esattamente di un'intelligenza artificiale.
- I documenti più adatti alla domanda vengono selezionati.
- La AI riceve la domanda solo contro i documenti selezionati.
- La AI risponde con le informazioni estratte dai documenti e utilizza le sue abilità linguistiche.
Quindi i documenti possono essere cancellati dal database di ricerca di una ricerca AI, analogamente a quanto accade in una normale motore di ricerca. Tuttavia, tali motori di ricerca AI, come li chiamo qui, sono piuttosto imprecisi, come dimostra Bing. Quindi, alla fine, Bing non è veramente utile e neanche per i documenti del proprio azienda.
Le allucinazioni di una IA, come quelle riscontrabili nella versione di Bing guidata da IA, possono essere evitate nei sistemi di IA propri dell'azienda.
Interessati, per favore, contattatemi.
Ciò che manca a Bing è un grounding efficace. Bing non può farlo perché le risorse necessarie per questo sono ancora troppo scarse a Microsoft. Questo è almeno la mia opinione, considerando i dettagli tecnici dei modelli di intelligenza artificiale e delle loro richieste hardware.
Più economico è il caso di sistemi AI propri dell'azienda, sui quali un contributo specifico apparirà presto su Dr. GDPR. Questi sistemi possono applicare l'grounding e combinare così due vantaggi:
- Il sapere attuale è disponibile.
- Le risposte alle domande che vengono fatte a questo sapere sono molto precise.
Le allucinazioni possono essere evitate in sistemi di intelligenza artificiale locali, che non hanno nulla a che fare con Microsoft, Google, Meta o ChatGPT, quindi solo nei sistemi locali. Avete mai pensato anche voi a un sistema di IA simile per il vostro azienda? Non costa una fortuna.
Testo, immagini e altri media: diritto d'autore?
Per quanto riguarda i testi online accessibili, vale anche per le immagini online accessibili. Ecco il dilemma: forse è ancora più grande in questo caso, perché un'immagine generata da una IA viene spesso riconosciuta solo con difficoltà dalle sue origini. In effetti, i generatori di immagini come Midjourney o DALL-E combinano spesso più o addirittura molte immagini. Il LAION-5B Datensatz, che viene spesso utilizzato con gli algoritmi di diffusione stabile delle immagini, consente una ricerca per somiglianza delle immagini.
Ho seguito i seguenti passaggi con il dataset LAION per vedere se le immagini generate dalla IA erano simili al materiale di partenza disponibile online:
- Generazione di un'immagine tramite un generatore di immagini AI.
- Sono stati cercati immagini simili per questo ritratto nel database LAION che contiene quasi sei miliardi di immagini.
- La somiglianza dell'immagine generata rispetto alle immagini del dataset era ogni volta così bassa che, da uomo, non riesco a riconoscere una violazione dei diritti d'autore nemmeno con un controllo molto rigoroso.
I miei test non sono stati esaustivi, ma solo puntuali. Ho già generato migliaia di immagini AI con un sistema AI locale.
I generator di immagini AI producono spesso immagini che sono completamente diverse dalle immagini di origine (dati di addestramento), quindi il diritto d'autore non si applica più.
Per il training sono invece necessarie le condizioni molto favorevoli per i modelli di intelligenza artificiale previste dal diritto d'autore.
Anche nei testi vedo regolarmente che una riproduzione tramite il modello AI della mia scelta avviene in una forma molto diversa dall'originale. Pertanto mi sembra non pertinente la domanda sull'opera originale qui. Ciò non deve sempre essere così netto come dimostrano i giudizi sui poemi. Se però un'azienda utilizza un modello AI, può contrastare questa problematica in più modi.
In primo luogo, i sistemi di intelligenza artificiale autarchici possono essere dotati di dati di training scelti liberamente. In secondo luogo, l'output non può essere pubblico, ad esempio all'interno del rete aziendale. Il giurista sa meglio di me in che misura ciò riduce il diritto d'autore. È certo: "Cosa io [come autore] non so, mi fa caldo." Il rischio dell'uso non pubblico dei dati è notevolmente più basso rispetto a mostrare i risultati. In terzo luogo, i sistemi di intelligenza artificiale aziendali possono essere dotati di meccanismi di alterazione di qualsiasi tipo. Il meglio è l'economia. Ciò che un tempo costava una fortuna oggi è accessibile. Il suo business non ha bisogno di ChatGPT (e se lo avesse, mi piacerebbe sapere per cosa). Come motore di ricerca in ogni caso no.
Conclusione
Le informazioni che una volta sono state inserite in un modello di intelligenza artificiale non si possono niente semplicemente cancellare da questo cervello elettronico. E' ancora più difficile impedire che i propri lavori online finiscano in modelli di intelligenza artificiale.
Quindi i contenuti propri sono condannati a essere assorbiti dalle grandi piattaforme di intelligenza artificiale. La contraddizione contro l'assorbimento è possibile in forma di elencazione, ma non riguarda tutte le tipologie di opere. I dati personali sono protetti meglio dei testi, la cui essenza viene assimilata dalla AI terza e quindi sottratta alla controllo dell'autore del testo originale.
Google lavora in modo particolarmente astuto e utilizza tutti i contenuti letti per scopi ammissibili. Ciò comprende sia la motore di ricerca che l'IA chiamata Google Bard, nonché tutto ciò che Google si inventerà. Analogamente sembra essere il caso di Meta.
Il testo che non è stato scritto principalmente come articolo di informazione potrebbe sfuggire ai modelli di intelligenza artificiale. Infatti, l'essenziale spesso sta tra le righe.
Autori di opere disponibili online non avranno a medio termine la possibilità di impedire ad un'intelligenza artificiale l'utilizzo delle loro opere.
Vedi il post.
Il diritto di utilizzo dei creatori in materia di opere online è praticamente non regolamentato e quindi in pratica quasi impossibile. Solo per sistemi mondialmente noti come ChatGPT può essere realizzato questo diritto di utilizzo dei creatori.
Tuttavia le informazioni da modelli di intelligenza artificiale non possono essere cancellate a breve termine. Invece un modello di IA dovrebbe essere ristrutturato da zero, il che è molto tempo consumante e quindi avviene solo di rado. Fino ad ora, comunque, sono disponibili almeno le proprie opere in una IA straniera, senza che l'autore ne sia a conoscenza.
Non è escluso che ci siano approcci matematici per cancellare deliberatamente singole informazioni da un modello di intelligenza artificiale. Di questo, comunque, non ho ancora sentito parlare e non sono riuscito a trovare nulla di concreto al riguardo. Ritengo che ciò sia difficile e credo piuttosto che non ci sarà un tale meccanismo in forma pratica nei prossimi 12 mesi.
Finché non viene risolta la semplice questione tecnica del diritto di utilizzo analogo ai crawler dei motori di ricerca, tutti gli autori di contenuti sono comunque peggio offesi di quanto vorrebbero.
Probabilmente verranno adottate regolamentazioni giuridiche a livello UE per proteggere meglio i dati degli autori da un furto da parte di crawler basati su intelligenza artificiale. Ma ormai è troppo tardi e ancora di più quando queste normative inizieranno ad applicarsi. Sono sempre le piccole imprese a pagare il prezzo. Google e altre multinazionali continueranno semplicemente a sfruttare il tesoro di dati presente sul web (a meno che non vogliate più apparire nelle ricerche di Google). Chi gestisce grandi crawler può continuare a cercare contenuti la cui utilizzo non è stato vietato.
La tecnica prevale sulla legge perché la tecnica si svolge alla velocità della luce e la legge al passo del coniglio.
Attualmente è pendente un ricorso contro LAION. Un fotografo vuole cancellare a posteriori le sue immagini dal dataset di LAION. Di solito, però, queste immagini non sono più archiviate da LAION (ci sono indizi che questo sia effettivamente il caso, anche se non è necessario per creare modelli di intelligenza artificiale). Indipendentemente da ciò, il dataset di LAION viene utilizzato in tutto il mondo da numerosi modelli di generazione di immagini. Un controllo sui singoli componenti (qui: le immagini) sembra impossibile.
ChatGPT ha utilizzato il set di dati Common Crawl per l'addestramento della IA. Questo set di dati è un estratto parziale dell'internet, selezionato in modo non sempre sistematico. Non appena esisterà una convenzione tecnica per la dichiarazione dei diritti d'autore (robots.txt), sarà scomodo per tutti i modelli di IA che utilizzano un set di dati Common Crawl aggiornato. Finché non sarà così, ci saranno probabilmente ancora molti mesi o alcuni anni. Giuridicamente esistono anche possibilità di scampo. Ad esempio OpenAI potrebbe affermare per il futuro ChatGPT-5 che si è basata su ChatGPT-4 come base (Fine-Tuning) invece di ristrutturarla completamente da zero. La base dati di ChatGPT-4 sembra comunque essere legittimamente autorizzata in materia di diritti d'autore, perché nel settembre 2021 quasi non esistevano dichiarazioni dei diritti d'autore.
Riepilogo
L'essenza del contributo e le conseguenze in punti chiave:
- Tecnicamente non è possibile un vincolo di utilizzo da parte degli autori che impedisce ai modelli di intelligenza artificiale di scaricare online i loro lavori, almeno per ora.
- Un vincolo di utilizzo ai sensi dell'art. 44b del Codice sull'autoregolazione (UrhG) ha effetto solo per il futuro. I modelli di intelligenza artificiale già addestrati rimangono così come sono.
- Non esiste un vincolo di consenso per gli autori di opere online gratuite rispetto ai modelli di intelligenza artificiale.
- I modelli AI non possono essere dimenticati, e se lo sono, solo con grandi sforzi e con notevoli ritardi nel tempo.
- Modelli di intelligenza artificiale che non vengono riaddestrati, non considerano le riserve di utilizzo che sono state date solo dopo l'allenamento dell'intelligenza artificiale.
- Sono tempi duri per gli autori. Ciò che un uomo può fare e permettersi con opere altrui, una AI può farlo ancora di più (e probabilmente lo potrà anche fare in pratica).
- La nominazione delle fonti di un modello di intelligenza artificiale non cambia nulla, perché le riserve d'uso sono state dichiarate praticamente solo occasionalmente.
- Google utilizza ovviamente tutti i dati dei crawler sia per la motore di ricerca che per Google Bard o simili. Di conseguenza, una controllo per gli autori a causa della potente presenza del mercato di Google è attualmente praticamente impossibile.
- Giuridicamente sono numerosi gli scappatoie pensabili per dare l'aspetto di legittimazione ai modelli di intelligenza artificiale.
Messaggi chiave
L'intelligenza artificiale può usare testi e immagini online, ma gli autori possono impedire questo utilizzo.
È difficile per gli autori bloccare l'utilizzo dei loro lavori da parte di piattaforme di intelligenza artificiale perché non esiste un sistema tecnico standard per farlo.
Bloccare i crawler di intelligenza artificiale è un'impresa impossibile perché ce ne sono troppi e nuovi modelli vengono creati continuamente.
Google utilizza i dati dei siti web, anche quelli che non sono espressamente condivisi, per addestrare la propria intelligenza artificiale.
I modelli di intelligenza artificiale non possono dimenticare le informazioni che hanno imparato, quindi anche se blocchi il tuo contenuto, potrebbe essere già stato utilizzato per addestrare il modello.
I modelli di intelligenza artificiale, come Bloomberg-GPT, sono potenti ma hanno limiti. Non possono dimenticare informazioni e le loro conoscenze sono spesso obsolete. Per ricerche precise, i motori di ricerca tradizionali sono ancora migliori.
Bing è pericoloso perché fornisce informazioni false come vere e non avvisa l'utente.
Le immagini generate da intelligenza artificiale sono spesso così diverse dalle immagini originali che non è facile riconoscere una violazione del copyright.
L'intelligenza artificiale può utilizzare i contenuti online senza il permesso degli autori, rendendo difficile per gli artisti proteggere i propri lavori.
È difficile proteggere i diritti d'autore online contro l'utilizzo da parte dei modelli di intelligenza artificiale.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
