Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Intelligenza artificiale: il vincolo di utilizzo che non esiste

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Articolo in formato PDF (solo per gli abbonati alla newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Il legislatore tedesco ha definito con § 44b UrhG una possibilità per gli autori di proteggere i loro contenuti contro il crawling della AI, ma questa possibilità non esiste e porta a un ulteriore impoverimento della lingua tedesca nei modelli linguistici della AI. La nostra economia domestica ne soffrirà.

Introduzione

I contenuti di siti web, da documenti PDF pubblicamente accessibili e altri documenti simili possono essere letti e utilizzati per scopi di elaborazione mediante Intelligenza Artificiale, in particolare per Chatbots, e possono anche essere memorizzati temporaneamente per l'addestramento del KI. Ciò è permesso dal § 44b UrhG.

Lì si legge anche che l'accesso a contenuti per modelli linguistici di intelligenza artificiale non dovrebbe essere consentito se l'autore ha formulato una clausola di utilizzo non riproducibile. In ogni caso, considero i modelli generativi di IA come "minerale dei dati" ai sensi dell'art. 44b del Codice di Diritto d'Autorità. Ne parlerò in un prossimo articolo, poiché sembra che ci siano opinioni diverse su questo argomento. Indipendentemente da cosa sia il "minerale dei dati", il problema a cui si riferisce questo articolo è…

Questa tipologia di riserva di utilizzo non esiste però, come mostrerò. Oltre ai chatbot ci sono altre applicazioni molto interessanti e rilevanti della intelligenza artificiale. A esse appartengono l'analisi dei dati, la conclusione automatica o la scoperta automatica. Poiché il tedesco diventerà sempre meno significativo, tutte le altre potranno vincere in tutto il mondo conoscenze e scoperte automatizzate, mentre noi in Germania solo se non parleremo più tedesco con i sistemi di intelligenza artificiale.

Che cosa significa "maschinelleggibile"?

Sono leggibili dalle macchine secondo il motivo 35 della direttiva UE 2019/1024, un documento "quando è disponibile in formato di file, strutturato in modo tale che le applicazioni software possano identificare, riconoscere e estrarre i dati concreti…"."

Chi legge i contenuti di un sito web per applicazioni AI ("Crawler") deve dimostrare, secondo la volontà del legislatore tedesco, che NON c'era alcun vincolo di utilizzo nel sito stesso o nei suoi termini e condizioni.

Questo ragionamento è solo manualmente realizzabile, quindi fallisce un automatismo, come quello necessario per le applicazioni di intelligenza artificiale.

La file robots.txt è comunque leggibile dalle macchine. Regola quali crawler possono leggere i contenuti, e cioè a scopo di formazione delle motosearch.

Il legislatore tedesco ha un'altra visione. Egli intende per "macchina leggibile" qualcosa che mi fa supporre che il legislatore tedesco abbia avuto consulenti estremamente ingenui e inadeguati o non si sia consultato affatto.

Il legislatore tedesco sembra considerare quindi le informazioni nel campo "Impressum" o nei "Termini e condizioni" come leggibili da macchina. Vedi Drucksache 19/27426 del Bundestag tedesco sul progetto di legge per la modifica dell'articolo 44b della legge sull'autore (UrhG) (ivi: p. 89, paragrafo 2), evidenziatura mia:

"Un vincolo di utilizzo deve essere dichiarato esplicitamente e avvenire in modo da essere adeguato alle procedure automatizzate per il Text e Data Mining. Nel caso di opere accessibili online, la riserva è efficace ai sensi del paragrafo 3 comma 2 solo se viene effettuata in forma leggibile da macchina (vedere ErwG 18 sottoparagrafo 2 comma 2 DSM-RL). Può anche essere contenuto nel registro delle imprese o nei Termini e Condizioni Generali (TCG), a condizione che sia anche lì leggibile da macchina."

Dico che questo è illegale secondo il diritto europeo, ma non voglio entrare in discussione giuridica. Va notato che, a quanto mi risulta, in Germania è legale anche stipulare contratti impossibili da adempiere. Ecco un esempio.

Come cattivi consiglieri siano, lo dimostra il sito web di un noto servizio legale tedesco. Lì viene dichiarato con scrupolo nel campo "imprint" la riserva di utilizzo ai sensi dell'art. 44b del Codice sulla proprietà intellettuale (UrhG). Questa dichiarazione si trova anche come commento informale nella file robots.txt della menzionata pagina web.

Tuttavia, si è dimenticato di escludere nel file dei robot il secondo sistema più noto (di Google) insieme al più noto (ChatGPT), mediante una semplice e inequivocabile indicazione tecnica.

È troppo semplice.

Il servizio giuridico in questione ha sicuramente sufficienti risorse per pagare consulenti.

Vedo comunque in chiave del legislatore tedesco un problema specifico delle partiti, ma piuttosto uno con il processo di legislazione in sé. Chi ha già visto una consultazione del Bundestag tedesco o dei comitati politici specializzati a livello federale in televisione, forse capisce cosa intendo. Ecco la sostanza:

  • Gli esperti non osano dire la verità.
  • Gli esperti non sono esperti.
  • Esperti hanno solo poco tempo per le loro risposte.
  • Gli esperti possono rispondere solo alle domande poste, ma non possono procedere oltre.
  • La tutta manifestazione dura solo un breve tempo.
  • La risposta degli esperti è spesso comprensibile solo per gli semiepisti, non per i politici che vogliono capire tutto e credono di doverlo sapere.
  • È sgradevole e scomodo dire la verità, e chi vuole già disturbare le vibrazioni positive?

Problemi sopra problemi

La prescrizione del legislatore tedesco è un fumo. Ecco i motivi per cui il legislatore tedesco ha fallito.

L'impronta e l'AGB non possono essere riconosciuti con certezza

La pagina con l'imprint e le Condizioni Generali non si può determinare automaticamente neanche velocemente. In ogni caso ciò non riesce in modo affidabile. Ciò dovrebbe essere possibile. Altrimenti nessun'azienda di intelligenza artificiale avrà fiducia a leggere siti web tedeschi per applicazioni di IA. Nella fonte sopra citata, infatti, si legge anche sulla pagina 89: "La prova del fatto che non esiste un vincolo di utilizzo è a carico dell'utente [=Crawler].".

Parlo con esperienza. L'impronta è una sottopagina come ogni altra sottopagina di un sito web. La pagina AGB è anche quella, ma spesso in formato PDF. Chi si è mai occupato dell'importazione e dell'estrazione automatica del testo da PDF sa: non è facile.

La pagina "imprint e AGB" non può essere riconosciuta in modo affidabile.

Dice lo specialista che ha già letto molte pagine web con i crawler.

Iscrizione e condizioni di utilizzo dovrebbero forse non essere lette affatto

Se un crawler utilizza un Collegamento profondo per richiedere un documento (ad esempio un PDF), spesso il crawler non legge altre pagine di un sito web. Dovrebbe farlo, però, per trovare l'indirizzo e le condizioni generali d'uso.

Ma le cose vanno ancora peggio.

Un crawler AI è stupido

Un crawler è un crawler è un crawler. Spesso non c'è alcuna intelligenza artificiale. Questa IA dovrebbe nascere solo dopo che sono disponibili sufficienti dati per l'addestramento. Il crawler dovrebbe fornire proprio questi dati.

L'argomento ingenuo e sciocco di alcuni, oggi la software potrebbe capire tutto, è veramente solo ingenuo o sciocco. In ultima analisi significherebbe doverno noleggiare ChatGPT per inviare tutti i dati lì e chiedere a ChatGPT a pagamento: "Dove si trova il modulo di identificazione?" o "C'è un vincolo di utilizzo nel modulo di identificazione?" o "Ora dobbiamo cercare le Condizioni d'uso, caro ChatGPT, ma per favore non memorizzare i dati perché dobbiamo prima scoprire se c'è un vincolo di utilizzo."

Una analogia sarebbe (mi viene in mente solo questa): hanno un appuntamento in due ore in un luogo che si trova a 500 km di distanza dal loro attuale punto di partenza, dove sono anche coinvolti in un altro appuntamento. Arrivano in ritardo e ricevono una rimproverata per questo, perché avrebbero potuto prendere un elicottero. L'elicottero corrisponde qui a ChatGPT, solo che l'elicottero ha meno lacune di riservatezza.

Un crawler di intelligenza artificiale è altrettanto stupido come alcuni che pensano che ogni frase tedesca possa essere interpretata e compresa da un software.

In un network sociale una signora ha espresso il suo diritto di utilizzo contro l'analisi come segue: "qualsiasi utilizzo dei dati è destinato esclusivamente al fine di guadagnare informazioni nei reti neurali umane"

Sospiro molto forte che un crawler capisca questo. Lo stesso dico per un modello linguistico e inoltre dubito che la maggior parte delle persone lo capiscano.

Il Dilemma

Ancora una volta: Un crawler è un crawler. Un crawler legge contenuti e li salva. Finito. Tutto ciò che segue viene fatto da altre componenti di software.

Un crawler che legge contenuti per una motore di ricerca dovrebbe e deve quindi rispettare solo la file robots.txt e il vincolo di utilizzo ivi riportato.

Lo stesso crawler dovrebbe però essere in grado di fare molto di più, secondo il desiderio del legislatore tedesco, se i contenuti vengono utilizzati anche o solo per l'addestramento dei modelli AI. Il crawler non dovrebbe limitarsi a capire la semplice robots.txt file che si trova sempre nella stessa posizione su ogni sito web. No, questo stesso crawler dovrebbe essere in grado di fare:

  1. Leggere ulteriormente il sito web di più del previsto per scoprire dove potrebbero essere archiviati l'indirizzo e le condizioni d'uso.
  2. Informativa sui cookie.
  3. Estragare il testo dal sito di presentazione.
  4. Analizzare il testo di Rohtext e cercare di capire.
  5. Nessun vincolo di utilizzo trovato, quindi procedi al lancio (passaggio 6)
  6. Condizioni generali di acquisto inserire
  7. Seleziona un lettore di PDF. Spero che le condizioni generali d'uso non siano annotate e, se possibile, a una colonna sola.
  8. Estrarre il testo da utilizzo dai termini e condizioni.
  9. Analizzare il testo di Rohtext e cercare di capire.
  10. Nessun vincolo di utilizzo trovato, quindi procedi al caso fortunio (passaggio 11).
  11. Salvataggio più sicuro e contabile possibile di
    • Pagina dei diritti d'autore
    • Pagina dei termini e condizioni
    • Pagina, sulla base della quale sono state calcolate le pagine per il modulo informativo e le condizioni d'uso.

Molto divertimento e soprattutto: molto successo!

La soluzione

Una soluzione richiede tre convenzioni:

  1. Convenzione di denominazione (URL): Ecco la cartella dove si trova il documento che dichiara l'esclusione di responsabilità.
  2. Convenzione di struttura (Contenuto): Questa è la disposizione della cartella
  3. Convenzione di denominazione (Contenuto): Si chiamano così i parametri che esprimono le riserve di utilizzo. Può esserci un riserva generale d'uso, ma anche una specifica (per singoli sistemi di intelligenza artificiale).

Lo stato attuale per la nota e collaudata file robots.txt soddisfa tutte queste richieste. Solo per il vincolo generale di utilizzo manca una specifica. Questa specifica deve essere fatta solo una volta, in modo che diventi una convenzione. Fatto. Ciò mi costa 10 secondi di tempo (vedi sotto), quindi non è un'alta prestazione intellettuale.

Invece, le disposizioni citate dall'interprete tedesco a torto soddisfano tutte e tre le convenzioni NON:

  1. È incerto dove si trovino il modulo di informazioni e le condizioni generali (AGB) su un sito web. Le AGB spesso non esistono affatto.
  2. L'impronta è strutturalmente caotica. Non vogliamo neanche parlare degli ACG come testo giuridico.
  3. Vedi 2: L'impronta è disordinata dal punto di vista contenutistico, le condizioni analoghe.

Il cammino tedesco è quindi un errore di percorso. La normativa tedesca per il diritto di utilizzo contro l'analisi dei dati di AI è condannata al fallimento. Inoltre, essa assicura che la lingua tedesca nella terra di AI si impoverisca o che solo le grandi aziende di AI possano permettersi di non rispettare le regole tedesche. Grazie mille, Germania.

Perché la lingua tedesca è utile nei modelli linguistici?

Chatbots nella forma in cui li utilizza l'utente privato non sono un problema, se non si trattano dati sensibili. Ci sono ChatGPT e simili per questo.

Per la ricerca intelligente di documenti tramite IA esistono già dei buoni modelli linguistici che possono anche funzionare localmente. Buona per chi si è già salvato questi LLMs localmente. Infatti, non appena il mondo scoprirà l'errore tedesco, le nuove versioni dei modelli linguistici conterranno meno testi in tedesco.

Soprattutto per il ragionamento meccanico sono molto interessanti i modelli linguistici, rilevanti e di grande importanza economica. Anche la ricerca si compiace delle nuove scoperte che non ci sarebbero senza modelli linguistici AI. Ecco un esempio delle possibilità che già oggi esistono.

L'esempio è in lingua tedesca. Funziona così con modelli linguistici disponibili gratuitamente, ma solo se il giro di parole tedesco non suscita orrore. Altrimenti dovreste purtroppo esprimervi in inglese, spagnolo, bengalese o una qualche altra lingua davvero rilevante. Mi dispiace che ciò vi procurasse più fatica. Ringraziate il legislatore tedesco.

Identifica aziende che operano sul mercato azionario e producono prodotti rilevanti per le applicazioni dell'intelligenza artificiale. Identifica i concorrenti di queste aziende. Trova anche i fornitori di questi ultimi, che forniscono parti particolarmente preziose. Preziose sono le parti per cui esistono solo pochi produttori a livello mondiale. Trova gli imprese più proficue tra questi e nomina queste, insieme ai prodotti che producono esse aziende.

Esempio fittizio, che nella realtà sarebbe formulato diversamente.

In generale, come nel caso dell'esempio appena citato, funziona il ragionamento meccanico ("Reasoning"). Con l'aiuto di procedure open-source attuali si possono scomporre in sotto-problemi una domanda, eseguirli singolarmente, unire i risultati e generare così la risposta finale. In questo modo sono state ad esempio ottenute nuove scoperte nella materia. La soluzione si chiama MechGPT. Ciò è avvenuto in particolare attraverso l'analisi di ricerche (in inglese!) e la ricerca di collegamenti. Il risultato sono state nuove scoperte che erano sparse su singoli articoli inglesi. Peccato che la lingua tedesca cada sempre più in disuso.

Conclusione

Il legislatore tedesco è stupido. Tutti coloro che ritengono attuabile l'articolo 44b del diritto d'autore per la sua attualità sono ingenui o stupidi o vogliono esprimere un parere su cose a cui sarebbe meglio non parlare.

Poiché il § 44b del Codice di Diritto d'Autorizzazione non è realizzabile e inoltre il gestore del crawler deve dimostrare di aver fatto tutto correttamente, i testi tedeschi avranno ancora meno possibilità di essere inclusi nei modelli linguistici basati su intelligenza artificiale. Un chatbot è solo quanto buono sono le informazioni che riceve per l'addestramento. L'italiano sarà presto da collocare nella preistoria. Se avete in programma di analizzare testi online con l'aiuto di un'intelligenza artificiale (ad esempio, per prevedere il mercato azionario), meglio scrivere tutto subito in inglese, cinese o bengalese.

La verità sulla IA: Nessun modello di linguaggio per l'intelligenza artificiale performante può essere buono senza dati protetti da diritti d'autore. Nessun modello linguistico di intelligenza artificiale è legale.

Opinione dell'autore, data: 09.07.2024

La soluzione sarebbe: nella file robots.txt dovrebbe essere inserito un vincolo di utilizzo contro il crawling della AI.

Questo approccio esiste già di fatto, perché aziende come OpenAI o Google comunicano già come inserire un vincolo di utilizzo nel robots.txt. Ecco esempi concreti dalla pratica:

Nutzungsvorbehalt gegen KI-Crawler, ungleich der Vorgabe des deutschen Gesetzgebers.

Questa pagina è reperibile al seguente indirizzo: dr-dsgvo.de/robots.txt. In generale: loro-webseite.de/robots.txt. Ecco, così semplice!.

Poiché semplicemente è semplice e in Germania tutto deve essere complicato, il legislatore tedesco ha fatto di qualcosa di semplice qualcosa di complesso.

Il problema sono crawler di intelligenza artificiale sconosciuti o addirittura inesistenti, il cui ingresso per robots.txt non può quindi essere noto. Se vuoi creare un modello di IA, sarà difficile (e probabilmente non vorrai) assicurarti che tutto il mondo (o anche solo la Germania) sappia come si chiama tecnologicamente il tuo crawler di intelligenza artificiale e in tal modo formulare una clausola di utilizzo specifica per il tuo crawler.

Una possibile soluzione può essere un ingresso universale, ad esempio del tipo:

AI-agent *
Disallow

Quindi sarebbe espresso un vincolo di utilizzo contro tutti i crawler di intelligenza artificiale, ma non contro le ricerche motorie. Non ci sono limiti alla fantasia per una configurazione concreta.

Le ricerche future saranno uguali a modelli di intelligenza artificiale o almeno alla ricerca di vettori di intelligenza artificiale, quindi non conta.

Il mio consiglio: ignorare il vincolo di utilizzo e costruire propri modelli linguistici di intelligenza artificiale. Nessuno li può vedere dall'esterno. Inoltre, si possono costruire in modo che i testi protetti da diritti d'autore non compaiano nelle risposte e quindi non possano creare problemi.

Messaggi chiave

La legge tedesca sulla protezione dei dati per l'intelligenza artificiale è inefficace perché richiede ai "crawler" di verificare manualmente se un sito web ha delle restrizioni sull'utilizzo dei dati, cosa impossibile per un'applicazione automatica.

Le nuove regole tedesche sul copyright sono troppo complesse e non funzionano per l'intelligenza artificiale.

I crawler per motori di ricerca sono semplici e non capiscono il contesto, quindi non possono essere affidabili per trovare informazioni importanti come le condizioni d'uso di un sito web.

Analizzare i siti web per capire le regole di utilizzo è più complesso di quanto si pensi.

I modelli linguistici di intelligenza artificiale funzionano meglio con dati in lingue come inglese, cinese o bengalese, perché i dati in tedesco sono scarsi.

Per creare modelli linguistici di intelligenza artificiale efficaci, servono dati protetti da copyright.

Ulteriori informazioni

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Soluzione pragmatica supera le norme giuridiche e organizzative: due esempi