Perché l'UE è indietro nello sviluppo di sistemi di IA?

L'UE rischia di rimanere indietro perché normative sulla protezione dei dati come il GDPR limitano fortemente l'uso di grandi quantità di dati per l'addestramento di modelli di intelligenza artificiale. Ciò porta a una carenza dei dati necessari per sistemi di IA performanti.

Quale ruolo giocano le leggi sulla protezione dei dati nello sviluppo di modelli di IA nell'UE?

Le leggi sulla protezione dei dati rappresentano un ostacolo significativo, poiché regolamentano fortemente l'uso di grandi quantità di dati necessari per l'addestramento di modelli di IA. Le rigide regole rendono più difficile lo sviluppo di sistemi di IA competitivi nell'UE.

Perché il diritto d'autore tedesco è problematico quando si utilizzano dati provenienti da siti web tedeschi per l'addestramento di modelli di IA?

Il diritto d'autore tedesco richiede una contestazione esplicita dell'operatore del sito web se i suoi contenuti vengono utilizzati per l'addestramento dell'IA. Il furto di informazioni di contatto e pagine dei termini e condizioni è la norma, il che rende la raccolta di dati automatizzata impraticabile e giuridicamente rischiosa.

Qual è il problema che pone la definizione attuale di IA dell'UE?

La definizione di IA dell'UE è problematica perché, ad esempio, non considera ChatGPT come intelligente, anche se il modello fornisce spesso risposte migliori rispetto alla media umana. Questa definizione ignora le reali capacità e l'autonomia dei moderni sistemi di IA.

Qual è il problema fondamentale dei modelli di intelligenza artificiale, secondo l'articolo?

L'articolo sostiene che la maggior parte dei modelli di intelligenza artificiale si basa su dati elaborati illegalmente, e quindi sono di fatto illegali. La mancanza di applicazione e la risposta insufficiente delle autorità esacerbano ulteriormente questo problema.

Come si può garantire l'uso di sistemi di IA per minimizzare i rischi legali?

Per minimizzare i rischi legali, l'uso di sistemi di IA dovrebbe essere attentamente monitorato. Ciò può essere ottenuto operando i sistemi di IA offline, ad esempio con server GPU o cluster GPU, per controllare in modo completo input e output.

Perché i modelli di IA sono attualmente così limitati nell'UE?

La situazione attuale è causata da rigorose leggi sulla protezione dei dati come il GDPR, che limitano fortemente l'uso di dati personali per l'addestramento di modelli di intelligenza artificiale.

Quali misure vengono proposte per migliorare lo sviluppo dell'IA nell'UE?

Si raccomanda una sanzionamento più rapido e severo dei fornitori di IA, in particolare quelli al di fuori dell'UE, nonché la riduzione degli ostacoli burocratici per migliorare l'applicazione della legge.

Regolamentazione dell'IA nell'UE: Grande successo o inizio fallimentare?

L'intelligenza artificiale si basa su grandi quantità di dati. L'UE protegge particolarmente i dati delle persone o degli autori. Ciò è in sé positivo, ma danneggia la creazione di sistemi di intelligenza artificiale competitivi. Altri motivi sono contro modelli linguistici performanti prodotti in Germania. È possibile risolvere questo dilemma?

Introduzione

I più comuni casi di utilizzo della AI sono probabilmente i modelli linguistici (LLMs) e quelli visivi. Forse presto si aggiungeranno generatori di video o riconoscitori di oggetti. Questo articolo si concentra quindi, per semplicità, sui LLMs. Le conclusioni sono in gran parte o completamente trasferibili a molte altre tipologie di modelli, come ad esempio classificatori o sistemi diagnostici medici.

Attualmente tutti i modelli linguistici competitivi provengono da paesi che si trovano al di fuori dell'UE. Mistral potrebbe essere una piccola eccezione, anche se i suoi modelli linguistici non sono tra i migliori.

Aleph Alpha non è un'eccezione, in quanto il suo nuovo modello Pharia-1 si classifica a metà nella classifica dei benchmark, per dirlo con gentilezza.

Alcuni credono che l'UE possa comunque ancora recuperare. Questo non accadrà. Perché per i modelli linguistici performanti è necessaria una sola cosa: i dati. Niente altro. Nessun personale. Nessuna tecnologia. Nessun denaro. Nessun tempo. Niente tranne molti, possibilmente rappresentativi dati, manca. Naturalmente, i dati dovrebbero essere conformi alla legge. Pertanto, sono ancora meno dati disponibili.

Per creare modelli linguistici di altissima qualità, in Europa manca un ingrediente fondamentale:

Dati.

Tutto il resto è sempre disponibile: una (!) persona, un (!) server o pochi server, il codice di programma migliore per l'addestramento dell'IA.

Le ragioni per il ritardo dell'UE in materia di IA sono, in senso letterale, prescritte.

Legislazione sulla protezione dei dati personali

La protezione dei dati è molto importante. Numerosi scandali lo dimostrano, scandali che, per la maggior parte, hanno origine al di fuori dell'Europa. Ecco alcuni esempi:

Nelle USA è stata influenzata una elezione presidenziale di grande importanza, in quanto sono stati utilizzati in modo illegale i dati analitici degli utenti di Google e Facebook (Meta) ("Cambridge Analytica").

Microsoft viene da parte di importanti organizzazioni negli Stati Uniti considerato un rischio per la sicurezza degli USA. La ragione è la scarsa sicurezza dei dati presso Microsoft.

Meta non è meglio di Microsoft, ma piuttosto peggio. Infatti Microsoft guadagna almeno qualcosa anche con i prodotti, mentre Meta ha solo le informazioni degli utenti. Queste informazioni vengono sfruttate al massimo. I regolamenti sulla protezione dei dati come la GDPR sono in questo caso più un ostacolo che altro. ([1]) ([2])

Sul Google si possono riportare anche notizie negative simili. Il fatto che i criminali possano essere catturati perché le autorità di sicurezza statunitensi analizzano l'utilizzo dei prodotti Google, non rassicura veramente. Chi come cittadino onesto è nel posto sbagliato al momento sbagliato, viene rapidamente etichettato come criminale e condannato a scontare una pena detentiva o addirittura a subire la pena di morte.

La GDPR come regolamento ha un ottimo concetto di base. È stata emanata quando l'intelligenza artificiale non era ancora un tema. È in sé molto sensato. Ma perché viene applicata praticamente? Le autorità tedesche per la protezione dei dati sanzionano praticamente solo in dosi homeopatiche.

La GDPR consente l'utilizzo di dati personali per il training del AI solo sulla base dell'interesse legittimo (cfr. Art. 6 Abst. 1 GDPR). L'autorizzazione è esclusa nei casi di dati di massa. Un contratto sarà giuridicamente difficile da realizzare per i dati di massa.

Peggio ancora: per le amministrazioni non è disponibile la legittima ragione di interesse come base giuridica (non è prevista nell'articolo 6, comma 1, della GDPR, lettera f). Le amministrazioni possono quindi in pratica non allenare i sistemi di intelligenza artificiale. È particolarmente dispiaciuto, perché proprio le amministrazioni avrebbero molti dati preziosi che potrebbero essere utili anche per i cittadini.

La GDPR si applica "solo" ai dati personali, che comprendono anche i dati pseudonimi (Art. 4 n. 1 GDPR). Per i dati anonimi la GDPR non si applica.

Tuttavia, se si esagerasse un po', si potrebbe dire che i dati anonimi non esistono in realtà. Si intende:

I dati anonimi sono dati per i quali i dati originali non sono più accessibili (caso molto raro).
I dati anonimi non sono così rappresentativi come i dati originali e quindi meno preziosi per l'allenamento AI.
L'anonimizzazione stessa è un processo di elaborazione dei dati. Questo tipo di processo non può essere effettivamente eseguito dalle autorità. Altri possono farlo solo in casi in cui sussista un interesse legittimo, cosa che è difficile da valutare.

Parliamo qui della pratica. Ciò che è valido in teoria, non interessa a nessuna azienda del mondo che vuole risolvere problemi concreti. Le discussioni teoriche fanno mancare il collegamento con la pratica.

In realtà i dati di massa non possono essere utilizzati da soli per motivi di protezione dei dati, ad esempio per l'allenamento della AI.

Questo vale anche per i dati pubblici sul web. I seguenti casi sono problematici:

Qualcuno scrive qualcosa su un'altra persona. Può essere una dichiarazione di fatto, oppure una calunnia. La persona coinvolta non vuole che questa informazione sia pubblica, e ancora meno che venga memorizzata in un modello linguistico di intelligenza artificiale.
Una persona pubblica autonomamente informazioni su di sé. Una IA memorizza queste informazioni perché il sito web della persona viene letto da un crawler. Più tardi, la persona decide di ritirare le informazioni e lo richiede anche al gestore dell'IA. Ma purtroppo, i dati dai modelli di IA non possono essere cancellati. Provate a cancellare un'informazione dalla vostra mente. Non va. Il vostro cervello e il cervello dell'IA sono entrambi reti neurali. Non c'è differenza. Credeteci o no. Ciò che è importante è che le informazioni non possono essere eliminate dai modelli di IA.

Ripetizione: Per motivi di protezione dei dati personali, non possono essere utilizzati i dati di massa per l'addestramento del AI nell'UE. Ciò è almeno in alcuni casi una più sgradevole conseguenza della GDPR, che altrimenti è molto sensata.

Diritto d'autore

Il diritto d'autore tedesco consente in base all'articolo 44b del Codice sull'opera dell'ingegno l'allenamento di intelligenza artificiale con opere protette dal diritto d'autore. Queste opere possono essere persino memorizzate a breve termine per l'allenamento dell'intelligenza artificiale.

Un'opera è automaticamente protetta dal diritto d'autore, se viene creata (da un essere umano). Non si vuole diventare autori, ma ci si diventa automaticamente. È analogo allo status di testimone: se hai visto un reato, sei un testimone. Non puoi scegliere se voler essere un testimone o meno. Sei diventato testimone o non lo sei.

Purtroppo il legislatore tedesco ha avuto i consulenti sbagliati quando ha ideato l'articolo 44b del diritto d'autore. Infatti, in questo paragrafo è menzionata una contraddizione e molto pratica distante possibilità di contraddire gli autori.

I proprietari dei diritti possono opporsi al fatto che i loro lavori finiscano in un sistema di intelligenza artificiale. Questo dissenso o riserva deve essere, secondo il commentario del codice giuridico tedesco, formulato nel riepilogo delle condizioni d'uso (imprint) o nelle Condizioni Generali di Vendita della piattaforma web (AGB). Ma come ([1]) ?

La robots.txt è un file riconosciuto e ampiamente utilizzato standard di settore. Questo standard è perfettamente leggibile da macchina. Evidentemente, nessuno dei consulenti che avevano consultato il governo federale era a conoscenza di questo fatto. Inoltre, sembrava essere ignoto il fatto che negli AGB o nel campo "imprint" la leggibilità da macchina non è tipicamente predominante. Spesso sembra essere così con i consulenti: un consulente vuole rimanere un consulente; quindi evita di esprimere opinioni negative o si esprime in modo intenzionalmente complesso o a causa della sua incompetenza linguistica, in modo che nessuno possa capirlo. Lo standard tedesco è l'opposto dello standard di settore: non è leggibile da macchina, non è un standard e non è ampiamente utilizzato. In breve: lo standard tedesco è praticamente inutilizzabile.

Ancora peggio: se si desidera leggere un sito web e utilizzare i suoi contenuti per l'addestramento di un modello di intelligenza artificiale, in caso di dubbio, si dovrà dimostrare che il gestore del sito web non si era opposto al momento in cui si era letto il suo sito. Questo è ciò che vuole il legislatore tedesco.

Purtroppo nessuno può dimostrare in modo legale (in massa!) che al momento X sulle pagine web Y, Z e su tutte le dieci milioni di pagine A1 fino a A10000000 non esisteva alcun diritto d'autore. Avrebbero dovuto leggere tutta la pagina per trovare l'indirizzo del sito e le condizioni generali. E cosa succede se ci sono due indirizzi? Succede anche questo. Alcuni gestori di siti web potrebbero farlo apposta, per indurvi al reato.

Conclusione: il diritto d'autore tedesco rende impossibile leggere in modo legalmente sicuro i massicci dati provenienti da siti web tedeschi.

Burocrazia e democrazia

Invece di burocrazia dovrebbe dire "burocrazy" (l'ironia funziona meglio in inglese).

La democrazia è per molti il minimo male tra tutti i mali. A questo si può concordare. Tuttavia, la democrazia rimane comunque un male.

Un esempio lo mostra molto bene. Una definizione per una tecnologia o un concetto tecnologico non dovrebbe essere stabilita attraverso una consultazione di 27 parti (ciascuna con più persone). Precisamente questo è accaduto, quando la Commissione europea si è occupata della definizione del "sistema di intelligenza artificiale" all'interno dell'AI Act. L'Oecd ha addirittura più membri. L'autore di questo articolo aveva fatto alcune proposte di modifica alla definizione di AI, che sono state accolte dall'Oecd. Uno degli autori principali della definizione ha risposto quindi (in sostanza) che era impossibile apportare ulteriori modifiche. Letteralmente ha scritto: "Dovresti convincere più di 30 delegazioni nazionali ad accettare qualsiasi altra modifica!" Ecco la fine del progresso.

Anche l'adeguamento della GDPR all'era del AI non è possibile a causa di burocrazia. Ciò ha richiesto anni. Nell'era del AI, già le settimane sono un'eternità.

La definizione di Intelligenza Artificiale dell'UE può essere definita solo infelice e sbagliata. Definisce ChatGPT, il chatbot attuale migliore e più eccellente, non come intelligente. Quindi, la maggior parte delle persone non è intelligente, perché ChatGPT può spesso fornire risposte migliori di gran parte degli esseri umani su questo pianeta. Forse gli esseri umani non sono così intelligenti?

La definizione dell'UE di cosa sia un sistema di intelligenza artificiale è:

Sistema di intelligenza artificiale" (AI-sistema) è un sistema supportato da macchine, progettato per operare con un certo grado di autonomia e per produrre risultati come previsioni, raccomandazioni o decisioni, che influenzano l'ambiente fisico o virtuale, per obiettivi espliciti o impliciti;

Fonte: Legge sulla Intelligenza Artificiale (vedi Abänderung 163)

Critica breve alla definizione dell'UE di AI: ChatGPT non è per sé autonomo. Un aspirapolvere robotico ancora piuttosto stupido è invece autonomo. Questo non può essere un criterio per l'intelligenza. Un risultato non è una condizione per l'intelligenza; esempio: Albert Einstein ha pensato 3 anni a mente vuota; era forse stupido in quei 3 anni solo perché non produsse alcun risultato? ChatGPT influisce di solito né sull'ambiente fisico né su quello virtuale, mentre un aspirapolvere robotico già lo fa. La critica nel dettaglio è presente in un articolo separato che propone inoltre una definizione solida dell'AI.

Qual è la soluzione?

Inizialmente, va sottolineato che esistono i seguenti tipi di modelli linguistici di IA:

Altissimi modelli linguistici (LLM), che sempre saranno considerati illegali. Nessuno (nemmeno un automatismo!) può legalmente esaminare e filtrare le enormi quantità di dati.
Modelli LLM abbastanza performanti che rispettano la privacy e il diritto d'autore. Anche in questo caso, purtroppo, secondo la legge della probabilità, bisogna dire che questi modelli si basano su dati trattati in modo illecito.
LLM poco performanti. Questi sono a) completamente conformi alla legge o b) molto vicini alla conformità o c) altrettanto illeciti. Nel primo caso, non importa perché nessuno utilizzerebbe questi modelli. Nel secondo caso, è stata sprecata energia vitale. Il terzo caso riflette un creatore di LLM che non ha né idea di addestramento AI né di disposizioni legali

In sintesi, sono fattualmente tutti i modelli linguistici illegali. Tutti quelli che non lo sono, non interessano a nessuno. Al massimo le autorità potrebbero voler utilizzare modelli linguistici meno performanti perché non vedono un altro modo (vedere le considerazioni precedenti e il fatto che le autorità siano regolate, il che è spesso anche positivo).

Riepilogo: Non c'è una soluzione. La AI è illegale (e utile).

O si utilizza l'intelligenza artificiale sapendo che è vietata, oppure si proibisce a tutti di utilizzarla. Tutti gli altri percorsi sono atti disperati, che potrebbero essere del tutto legittimi. Il problema legale verrà probabilmente risolto attraverso l'accettazione, proprio nel senso del pensiero sociale del diritto: ciò che è vietato ma che tutti fanno e che di fatto viene tollerato, verrà o continuato a essere tollerato o in un momento futuro dichiarato legale. Quest'ultimo scenario non accadrà così presto (vedi burocrazia e democrazia).

Piccolo aneddoto a illustrare l'evoluzione della società: un tempo solo la parola "spontaneità" era considerata corretta in quella forma. Quasi nessuno la usava. Quasi tutti dicevano solo "spontanità". In un certo momento, "spontanità" è stata dichiarata di fatto corretta. Tuttavia, l'Online Duden non lo ha ancora aggiornato e afferma che "spontanità" è "piuttosto rara" (cosa che è sbagliata).

Cosa è la soluzione pratica?

Nessuna soluzione, ma un sollievo con un piacevole effetto collaterale per il contribuente, sono le sanzioni.

Quando infine le autorità tedesche per la protezione dei dati eseguono il loro compito in modo corretto e sanzionano i trasgressori di dati finalmente in modo adeguato? Esempio di giustificazione: il tracciamento web. Il tracciamento web è circa l'utilizzo di Google Analytics, del pixel Facebook o altri servizi di analisi invasive. Di solito vengono utilizzati cookie. Questo reato si verifica quotidianamente milioni di volte su siti tedeschi. Il reato è facilmente verificabile (aprire il browser, aprire la console di rete con il tasto F12, aprire il sito web, aprirgli gli occhi). Perché non ci sono sanzioni per questo reato continuamente osservato?

La soluzione pratica è:Sanzioni severe e conseguenti e rapide per gli erogatori di AI* come Microsoft, OpenAI, Meta, Google, Apple in Europa. A seconda della legge vigente, viene sanzionato direttamente l'erogatore o vengono sanzionate le persone che utilizzano queste soluzioni. Nessun problema, continuerà a esistere ChatGPT. Infatti, dopo la prima sanzione tutto sarà meglio. E anche Facebook non scomparirà (purtroppo), visto che speriamo che un giorno le autorità tedesche di protezione dei dati chiuderanno definitivamente i conti con le pagine Facebook (il Tribunale europeo lo consente esplicitamente)

Output dei modelli di intelligenza artificiale

Un altro approccio è la considerazione delle uscite dei sistemi di intelligenza artificiale. Per ispirazione, si tenga presente quanto segue: una persona che sviluppa pensieri e fantasie di ogni tipo nel suo cervello, ma non le materializza, non fa nulla di sbagliato e vive in perfetta armonia con il diritto e la legge. In questo modo un sistema di intelligenza artificiale potrebbe anche essere valutato sulla base delle sue uscite. Un sistema di intelligenza artificiale senza uscita è effettivamente innocuo. È comunque necessario assicurarsi che questo fatto non venga abusato, ad esempio attraverso interrogatori segreti o anche semplicemente attraverso interrogazioni. Una persona ha infatti solo il proprio cervello a disposizione più i cervelli artificiali dei sistemi di intelligenza artificiale, che per ora non possono opporsi all'utilizzo da parte di terzi.

Conclusione

L'intelligenza artificiale può essere molto utile. Ecco il problema: utilizzare qualcosa perché è utile, anche se non è permesso, crea un certo dilemma.

La protezione della privacy, ad esempio attraverso il GDPR, è un'alta conquista. Questa esclude in larga misura l'utilizzo di sistemi AI. Questo dilemma non si può risolvere negli anni a venire.

L'intelligenza artificiale evidenzia l'incapacità dell'UE di agire rapidamente ed efficacemente nel campo della tecnologia. Solo esempi minimi dimostrano progressi. Ad esempio, quando l'autorità garante della privacy italiana ha temporaneamente vietato ChatGPT. Il fatto che il Garante della privacy del Hesse abbia poi osato inviare un questionario a OpenAI, quando lo avevano fatto tutti gli altri, non è stato un conforto per la massima passività dell'Hessen quando si tratta di diritti dei consumatori.

La AI è illegale. Per molti uomini e aziende può essere molto utile. Sembra un paradosso e lo è anche a livello giuridico. La realtà quotidiana però si discosta dalla teoria giuridica. L'utilità svolge un ruolo (almeno) secondario nella valutazione giuridica.

L'intelligenza artificiale ci ucciderà tutti. Ma fino a quel momento farà cose incredibilmente utili per noi.

Secondo Sam Altman.

È importante che le spese dei sistemi di intelligenza artificiale vengano utilizzate con grande cautela. Questo non è possibile con servizi cloud come ChatGPT, soprattutto se viene utilizzato il chatbot di OpenAI.

Ovvero si fa funzionare una AI da sé (Intelligenza Artificiale Offline, server GPU o cluster GPU). In tal caso, sia le input alla AI (promp) che gli output possono essere monitorati al meglio. Lo stesso vale per l'ottimizzazione del sistema di AI e spesso fornisce risultati molto migliori rispetto a tutti i candidati esterni condizionati solo per l'utilizzo universale.

O o viene utilizzato un servizio cloud attraverso la sua interfaccia di programmazione delle applicazioni (API), e non attraverso la sua standard interface utente, per aumentare la sicurezza. In questo modo almeno gli input alla AI esterna e le sue uscite possono essere monitorate in modo efficace.

In ogni caso dovrebbe essere il diritto d'autore tedesco aggiornato. Inoltre le autorità dovrebbero avere maggiori possibilità di utilizzare i dati per l'addestramento del AI.

Il più importante e efficace, tuttavia, è la sanzionazione severa degli offerenti di intelligenza artificiale, che spesso si trovano al di fuori dell'UE. In questo contesto, dovrebbe essere abbattuta la burocrazia, in modo che lo stato di diritto non diventi sempre più una teoria. Ciò che conta è solo la pratica. Non sono stati risolti problemi con carta sola. Per inciso, il governo americano ha avuto un profondo accesso ai modelli di intelligenza artificiale di OpenAI e Anthropic a causa di una disposizione presidenziale.

Principali punti chiave di questo articolo

L'UE ha norme di protezione dei dati notevoli. Ciò rende difficile lo sviluppo di modelli linguistici di intelligenza artificiale di alta qualità, poiché il loro addestramento richiede un'ampia quantità di dati che non possono essere legalmente garantiti.

Il GDPR vieta l'utilizzo di dati personali senza consenso o interesse legittimo per l'addestramento di sistemi di intelligenza artificiale. Le autorità non possono quindi addestrare tali sistemi perché non hanno la base legale.

Il diritto d'autore tedesco rende difficile l'utilizzo di dati da siti web tedeschi per l'addestramento di sistemi di intelligenza artificiale.

La definizione di AI dell'UE è infelice e sbagliata perché non considera ChatGPT come intelligente.

I modelli di AI sono quasi sempre illegali, ma ampiamente diffusi. Una soluzione pratica potrebbe consistere nell'agire con fermezza e rapidità contro le violazioni, ad esempio imponendo multe a fornitori come Microsoft, OpenAI o Google in Europa.

I sistemi di intelligenza artificiale possono essere molto utili, ma devono essere attentamente monitorati per prevenire gli abusi.

La burocrazia deve essere ridotta affinché lo Stato di diritto venga attuato concretamente, anziché rimanere solo teorico.

Sui punti chiave di cui sopra