Come funziona l'intelligenza artificiale (IA) e perché è adesso rivoluzionaria e mondiale? Quali sono le condizioni legali per il trattamento di grandi quantità di dati per l'addestramento di un cervello elettronico? E come si comporta la memorizzazione delle informazioni degli utenti e la produzione di immagini e testi? Estratto da uno dei miei discorsi.
Introduzione
Chi non capisce molto di intelligenza artificiale, spesso utilizza termini come ChatGPT per sembrare interessante. Molti credono che ChatGPT sia una motore di ricerca. Spoiler: è completamente assurdo. ChatGPT ha un database datato rispetto agli standard attuali. È di proposito e voluto. Infatti, ChatGPT serve come macchina per le risposte e non per trovare conoscenza aggiornata.
Chi ha capito di più della Intelligenza Artificiale e aveva l'occhio sul mercato azionario, si è comprata le azioni di Nvidia in un momento recente e da allora può constatare una crescita del prezzo gigantesca. Infatti Nvidia è il produttore delle schede grafiche che sono absolute top dog quando si tratta di applicazioni di IA.
Sono sicuro che il crollo del mercato azionario nella sua forma attuale sarà presto, perché ben presto ogni previsione sui corsi azionari potrà essere realizzata con una probabilità di oltre il 50%.
La mia teoria insieme all'ipotesi che questo mi riuscirà presto anch'io.
Cosa c'è? Assolutamente semplice: una scheda grafica come la Nvidia Geforce RTX 3070 ha 5888 core nella sua GPU. La GPU è il processore della scheda grafica. A differenza di ciò, la CPU, il classico processore di un computer. Buoni processori Intel attuali hanno 10 o pochi più core.
Un core Intel è matematicamente qualcosa come un Albert Einstein (che come fisico poteva calcolare molto bene). Un core di una scheda grafica Nvidia è un matematico mediocrista. Gli algoritmi di intelligenza artificiale si basano casualmente su operazioni aritmetiche che sono particolarmente eseguibili sui processori delle schede grafiche (GPUs). Mentre il core Albert Einstein svolge con facilità una moltiplicazione e si annoia per metà del tempo, il matematico della GPU è molto impegnato ma riesce a completare questa semplice operazione aritmetica quasi altrettanto velocemente.
Sfortunatamente 5888 matematici medi che lavorano in parallelo richiedono molto meno tempo per, diciamo, 100.000 moltiplicazioni semplici rispetto a 10 Einstein furiosi che lavorano contemporaneamente. Mentre il PC dotato di una scheda grafica ha già finito la calcolazione della K, si pensava che il PC alimentato solo da Intel fosse rimasto bloccato. Si può contare su un aumento di prestazioni della scheda grafica del fattore 50 o più. La scheda grafica non viene utilizzata per visualizzare immagini o video o giochi, ma solo per calcolare. Ciò si sente anche nel rumoroso ventilatore della scheda, che può sovrastare qualsiasi altro ventilatore di PC.
Mentre a Villariba la CPU è ancora calda e solo il 20% del carico è stato scaricato, a Villabaj tutto brilla già.
Per favore scusate il paragone sciocco con questi due paesi fittizi, che sono noti per la pubblicità e di cui si sa più che degli attuali algoritmi di intelligenza artificiale.
La scheda grafica fa già una differenza notevole negli algoritmi che vengono addestrati per compiti più impegnativi, che a volte richiedono 10 giorni di allenamento ininterrotto, o che per la generazione di un'immagine richiedono 10 secondi su una GPU, ma 8 minuti su una CPU. Siete sicuramente già stati a conoscenza di DALL-E o Midjourney e sapete che non dovete attendere 10 minuti per ottenere un'immagine.
Funzionamento di un'intelligenza artificiale attuale
Il sistema dell'intelligenza artificiale come ChatGPT si basa su reti neurali artificiali. Una rete neuronale è anche presente nel cervello umano. Funziona in modo approssimativo così:

Rappresentata è l'arte con cui le persone elaborano informazioni e come nasce l'intelligenza. Quasi esattamente quanto si può vedere nell'immagine, capiamo perché ci sia intelligenza al mondo. Io sostengo che non sappiamo nulla in proposito, ma ci meravigliamo solo del fatto che i neuroni con le loro connessioni siano in grado di far nascere qualcosa come l'intelligenza. Spoiler: Non c'entra nulla con Dio, come mostrerò subito.
Nell'immagine sopra si vedono a sinistra una serie di influenze ambientali, ovvero segnali. Possono essere rumori, suoni, immagini fisse, immagini in movimento, odori, correnti d'aria ecc. Le pipistrelli conoscono anche l'ultrasuono molto bene. Al centro si trova il nostro cervello, che riceve e elabora tutti questi segnali. A destra si vede la rete neuronale, in cui i segnali vengono elaborati e memorizzati.
Un Neurone è paragonabile a un semplice core di elaborazione. Tra i neuroni esistono connessioni, e sono moltissime, addirittura miliardi. Se un neurone "sparisce", cioè diventa attivo, viene determinato dall'azione potenziale generata da altri neuroni collegati a esso verso un neurone bersaglio.
Ora arriviamo alla realizzazione tecnica degli algoritmi di intelligenza artificiale attuali.

Nel quadro sono visibili le stesse cose che sopra per l'uomo.
Nel mezzo vedete l'elettronico cervello, più in alto era il umano.
A destra nell'immagine si vede la rete neurale nella sua forma digitale, che nel corpo umano esiste in forma biologica e quindi più analoga.
Così lontano, così vicino. Ma c'è ancora da fare. I cervelli elettronici trasformano grazie all'approccio Transformer (conosciuto dal 2017) tutti i segnali in serie di numeri, vettori chiamati. Esattamente lo stesso fa il cervello umano. Comunque è qualitativamente la stessa cosa. Che ci siano differenze fini nella implementazione generale della biologia e dell'elettronica, è quasi irrilevante e si limita a migliorare leggermente le prestazioni della biologia rispetto all'elettronica. Sono sicuro che conoscete il Mooresche Gesetz: ogni 12-24 mesi la potenza di calcolo di un processore si dimezza, spesso con un prezzo in diminuzione. Quindi il vincitore per prestazioni è la macchina, e da ora (circa anno 2023).
Questi vettori, cioè sequenze di numeri che rappresentano immagini, testi o video e altro ancora, possono ora essere confrontati tra loro. Ora quindi è possibile confrontare testi con testi, immagini con immagini, video con video, testi con immagini, immagini con video, testi e segnali audio con immagini o video ecc. Ora sapete come funzionano generatori di immagini come Dall-E o Midjourney. Ora sapete che con questo più velocemente e più semplicemente possono essere programmate applicazioni esclusive come SoundHound, che possono identificare brani musicali in pochi secondi.
Ho dimostrato io stesso che è possibile programmare applicazioni eccezionali in modo rapido e semplice:
- La trascrizione audio dei miei podcast: Audio a testo, in una qualità sorprendentemente buona. Per 30 minuti di parlato esce automaticamente un trascritto generato da intelligenza artificiale, che potrei dover correggere manualmente solo per cinque parole. Le frasi e le parole sconosciute come "tutto tutti", "Hömmele" (sì, è così!) o "Megafail di Microsoft, che avevano uno strumento AI su Twitter" vengono riconosciute senza problemi.
- La produzione di video da un input visivo e audio: il mio foto bidimensionale in qualità molto cattiva più la voce di un presidente americano come unica entrata dà vita al mio capo animato tridimensionale e alla mia bocca che si muove in sincronia con la voce come videoanimazione.
- Generatore di immagini: conosciuto in altre applicazioni. Fa una differenza, però, sapere se si calcola qualcosa in un cloud di Microsoft, Dall-E o altrove oppure su un sistema locale. Le differenze sono infatti: Locale non pago nulla. In cloud posso rovinare 100.000 euro in un mese per sbaglio (esempio: chiamata ricorsiva infinita involontaria). Locale ho il pieno controllo di tutti i dati. A Microsoft e Google aiuta pregare, ma al massimo un farmaco o un alcol puro per dimenticare o liberarsi da tutte le preoccupazioni con i mostri dei dati per breve tempo.
- Riconoscimento di oggetti: Quali oggetti sono riconoscibili in un'immagine? Quali contorni hanno ciascun oggetto? Quale oggetto si chiama? Come sarebbe con "Segnalo tutte le tazze da tè nell'immagine" o "Cerca immagini che mostrano due o più persone discutere in un ufficio e sedute su una sedia" o "Sostituisci il viso dell'immagine con quello di Norman Reedus, mio doppelgänger, dice molti…).
- Ricerca semantica: Invece di cercare con parole chiave o istruzioni SQL criptiche, si cerca ora con frasi in lingua naturale o si confrontano interi documenti tra loro.
Ho fatto calcolare un paio di migliaia di immagini sul mio computer. Ecco il risultato in forma di mosaico (ogni piccolo pezzo del mosaico è in realtà un'immagine con una risoluzione di 512 x 512 pixel):

Le immagini singole del mosaico sono nate da un calcolo di intelligenza artificiale. Sono state mescolate le immagini di due artisti che conosco. La varietà di variazioni non è ancora ottimale, perché erano solo tentativi. Va molto meglio, come ho scoperto il giorno dopo. Ciò che sul mercato dell'intelligenza artificiale è una eternità, per alcune autorità di tutela della privacy è un'unità di tempo che non conoscono (Cosa è un giorno? Alcune autorità conoscono solo i concetti temporali "anno", "decennio" e "mai"?)
Sistemi locali come soluzione
Come appena mostrato, molte calcolazioni di alto livello possono essere eseguite sui propri computer. Per favore, non correre nuovamente a Microsoft, AWS o Google solo perché qualcuno vuole giocare a Bingo con le informazioni false e utilizzare termini inglesi e marche per nascondere l'ignoranza.
Chi adesso ancora per ogni piccolo problema prenota un servizio Cloud, è un poveraccio e sa meno di AI che di protezione dei dati e applicazioni internet. Non sarebbe male, non bisogna sapere tutto. I consulenti sbagliati sono cattivi.
Una macchina da calcolo non è adatta per affermazioni precise. È altrettanto affidabile quanto un uomo di intelligenza eccezionale.
Alcuni problemi sono però così complessi che non possono essere gestiti con hardware standard. Ad esempio la versione 4 di ChatGPT. Questo sistema non esiste nemmeno come open-source, quindi nessuno può tentare di farlo funzionare correttamente.
Qualcuno è poi comunque abbastanza ragionevole e non riversa i suoi Segreti commerciali in un chatbot di Microsoft o Google. Con chi lo fa, io personalmente non voglio avere nulla a che fare.
Come esempio particolarmente plastico di sforzo computazionale sia BloombergGPT nominato. È un Large Language Model (LLM) del canale televisivo finanziario Bloomberg. È così potente che ha richiesto 1,3 milioni di ore di calcolo per essere completamente elaborato. Un modello è un cervello elettronico.
Il cervello di Bloomberg era però già pronto dopo 148 anni di calcolo solo perché erano state impiegate 512 schede grafiche di alta prestazione, ciascuna con 40 GB di memoria video (NON: memoria principale del computer). Ogni una di queste schede costava circa 14.000 euro. Chi vuole aumentare la RAM da 16 a 32 GB sul proprio PC paga il conto dal portafoglio. Chi vuole aumentare lo spazio di archiviazione di una scheda grafica da 8 a 16 GB, paga un piccolo patrimonio (leggermente esagerato).
Considerazioni giuridiche
Mi limito a pochi punti, tratti dalle spiegazioni dell'avvocato Jonas Breyer. Non è un caso se il suo cognome vi sembra noto (parola chiave: "gli indirizzi IP sono dati personali").
Diritto d'autore
Buono e cattivo allo stesso tempo per noi tutti, quando si tratta dell'intelligenza artificiale. Esiste il rischio che l'Europa rimanga campione di regolamentazione. Allora in Europa sarà difficile a molti imprese con l'intelligenza artificiale avere successo in alcuni settori (elaborazione delle immagini?). Invece, noi li acquisteremo dagli americani, che fanno ciò che vogliono, ma non sono punibili.

La premessa più importante: ciò che io come essere umano posso fare e non fare, una AI può farlo altrettanto o meno.
Riprodurre un'immagine dalla testa è altrettanto lecito per gli esseri umani che per l'intelligenza artificiale. Se il risultato presenta una somiglianza troppo grande con un'opera protetta dal diritto d'autore, non è lecito. Tutti i lavori sono protetti in sé, a condizione di avere un minimo di creatività. Sono quasi tutti gli immagini o fotografie che mostrano qualcosa di più di un quadrato o un cerchio.
Inoltre, secondo § 44b UrhG, è consentito di memorizzare brevemente opere altrui per analizzarle in base a modelli. Precisamente questo fa la IA di solito.
Il caso LAION
Arriviamo al caso LAION e.V., un'associazione tedesca, che è stata citata in giudizio da un fotografo tedesco. LAION ha raccolto e reso pubblici oltre 5 miliardi di immagini in un set di dati di addestramento per applicazioni di intelligenza artificiale visiva, contenente solo i collegamenti alle immagini originali pubblicamente accessibili.
Il dataset LAION 5B è molto popolare a livello mondiale e costituisce la base per ogni secondo generatore di immagini che valga qualcosa.
La mia osservazione personale dopo aver esplorato numerosi algoritmi di Stable Diffusion.
LAION aveva scaricato queste immagini una volta e le aveva utilizzate per calcolare un cervello elettronico. Dopo di che, secondo quanto dichiarato da LAION, sono state cancellate le immagini. Con il cervello si possono poi calcolare immagini come quelle sopra o la seguente.

Un fotografo ha ora ritrovato alcuni dei suoi scatti nel database LAIOn. Come detto, solo le link e non gli originali. Il fotografo ha chiesto a LAION di cancellare il suo materiale dai dati di addestramento. Non sono riuscito a capire cosa esattamente si intenda con ciò. Forse l'intento del fotografo è che le informazioni tratte dalle sue foto vengano cancellate dal cervello elettronico.
Ecco la LAION Database di immagini come schema e con annotazioni originali (estratto):

La domanda è ora se LAION debba cancellare le informazioni tratte da immagini brevemente salvate e analizzate successivamente o meno. LAION risponde "no" e ha inviato al fotografo, in risposta alla sua richiesta di cancellazione, una fattura legale con richiesta di risarcimento danni per circa 850 euro.
Diritto all'oblio
I dati personali sono protetti dalla GDPR. Le applicazioni di intelligenza artificiale richiedono sempre una elaborazione automatizzata. Di conseguenza, sono sempre soggette alla GDPR quando ci sono dati personali nel gioco.
Le informazioni possono essere personalizzate non solo con testi ma anche con immagini. Sono dell'opinione che le informazioni pubbliche possano godere di un solo modesto o nessun significativo diritto alla privacy. Le false affermazioni generate da una IA hanno inizialmente nulla a che fare con la privacy. Anche il diritto d'autore è qualcosa d'altra rispetto alla privacy.
Quindi vedo la protezione dei dati come problema secondario, quando si tratta di applicazioni di intelligenza artificiale. Ha qui una sua giustificazione molto buona e non impedisce, ma protegge. Altrimenti lo vedo più nel diritto d'autore o nel diritto delle marche.
Altre norme giuridiche
Il diritto di marchio tutela esplicitamente (§ 3 MarkenG) e implicitamente le marche protette (§ 4 n. 2 MarkenG ecc.).
Es esistono anche marche di parole e immagini, odori, suoni e forme, e probabilmente qualcosa in più.
La patente, il modello di utilità e alcuni disegni sono altrettanto protetti. Anche la forma di una bottiglia può essere protetta.
Il Atto di dati è attualmente solo un progetto di legge della Commissione. Obbliga le grandi aziende a rilasciare i dati se qualcuno li richiede. Suona strano e lo è anche.
Es es un progetto di commissione per una regolamentazione dell'Intelligenza Artificiale. In discussione c'è se dovrebbe esserci un rovesciamento della prova, quando qualcuno utilizza un lavoro generato da un'intelligenza artificiale. È stato questo lavoro prodotto in modo legittimo? Per dimostrarlo, ad esempio, con un generatore di immagini, bisogna salvare lo stato del sistema di IA come backup per poter poi fornire la prova sicura. Ciò impedisce l'IA e non le permette.
La regolamentazione protegge grandi aziende che possono permettersi di assumere un avvocato e personale per processi complessi. Le piccole imprese vengono così soffocate.
Migliore della regolamentazione che ritengo fattivamente impossibile, trovo deterrenza e sanzione. Due parole, sconosciute alle autorità per la protezione dei dati come quella dell'Hessen (e alcuni tribunali di là) . Dove parcheggiano meno auto male? Lì dove anche sul marciapiede parcheggiare con 800 euro è punito (ma non riceve mai un ticket) o lì dove ogni quinto parcheggia male viene annotato?
Consigli
Utilizzate sistemi di intelligenza artificiale locali. Il mondo può essere così semplice. Nessun problema più con Google e Microsoft. Cosa era ancora il Privacy Shield? Esiste ancora? No, non esiste più. Gli Stati Uniti sono fuori.
Non confondete i ChatBots con le Ricerche. Tuttavia, tramite una ricerca semantica, senza nemmeno ChatGPT, ogni documento o immagine può essere trovato meglio che mai prima. Senza OpenAI o Microsoft.
Controllate i dati di allenamento: solo dati propri o selezionati a mano sono esenti da problemi legali. Difficile, perché la IA si basa su grandi quantità di dati. Fortunatamente ci sono delle vie d'uscita. In genere è meglio utilizzare (se non disponibili i propri) solo dati pubblicamente accessibili.
Entrate dell'utente non dovrebbero essere salvate senza motivo. Potrebbero contenere dati personali. L'occasione dovrebbe, se salvata, essere scelta e giustificata con grande cura. Infatti ChatGPT è stato per breve tempo vietato in Italia.
Spese, prodotte da una IA, variano a seconda della forma. Le uscite testuali non sono elaborati scientifici. Si pensi al caso di un avvocato newyorkese che si è fatto attestare 12 sentenze da ChatGPT, che non esistevano affatto. Stupido se poi si presentano queste conclusioni in tribunale e fingono di essere la verità.
Il mio intervento si è svolto in un congresso sulla protezione dei dati presso la Deutsche Flugsicherung a fine maggio 2023.

Messaggi chiave
Le schede grafiche Nvidia sono essenziali per l'intelligenza artificiale perché hanno molti "matematici" che lavorano in parallelo, rendendole molto più veloci per i calcoli necessari all'apprendimento automatico.
L'intelligenza artificiale moderna funziona in modo simile al cervello umano, elaborando informazioni attraverso reti neurali digitali che trasformano i segnali in numeri.
L'intelligenza artificiale sta rivoluzionando il modo in cui elaboriamo e interagiamo con le informazioni, permettendoci di confrontare e analizzare dati come immagini, testi e audio in modo completamente nuovo.
L'autore promuove l'utilizzo di sistemi di intelligenza artificiale locali, sottolineando che molte calcolzioni possono essere eseguite sui propri computer, evitando di affidarsi a servizi cloud come quelli di Microsoft, AWS o Google.
L'intelligenza artificiale può generare immagini simili a quelle protette da copyright, ma se la somiglianza è troppo grande, è illegale.
L'autore ritiene che la protezione dei dati personali sia un problema secondario per le applicazioni di intelligenza artificiale, e che il diritto d'autore e il diritto delle marche siano più rilevanti.
L'uso dell'intelligenza artificiale comporta rischi per la privacy e la legalità, è importante utilizzare dati affidabili e non fidarsi ciecamente delle uscite generate dall'IA.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
