Intelligenza Artificiale: Dati personali nei modelli di IA

Molti chiedono la regolamentazione delle applicazioni di intelligenza artificiale. I dati di massa per l'addestramento dei modelli di IA dovrebbero, in via ideale, non contenere più dati personali, anche se questi provengono da fonti pubbliche. Ciò è richiesto ad esempio dal Garante per la protezione dei dati personali federale. Cosa significa questo nella pratica?

Introduzione

Un modello di intelligenza artificiale è un cervello elettronico, che rappresenta una rete neurale. Le connessioni tra i neuroni rappresentano la conoscenza, esattamente come nel cervello umano. La conoscenza viene imbeccata attraverso l'accesso a milioni o miliardi di documenti online gratuiti. A questi documenti appartengono in particolare le pagine web.

In molti di questi testi, che entrano in modelli di IA, sono presenti dati personali. Queste informazioni finiscono quindi nei dati di addestramento di un'intelligenza artificiale. E addirittura: le uscite generate da un chatbot sulla base dei dati di addestramento possono contenere anch'esse questi dati personali.

Il fatto che queste informazioni personali finiscano nei modelli di intelligenza artificiale sembra problematico a molti, come ad esempio il commissario per la protezione dei dati della Germania, dal momento che da questi dati in modelli di IA si originano diverse domande:

Il titolare dei dati (la persona interessata) è d'accordo con il fatto che i suoi dati personali finiscano in un certo modello di intelligenza artificiale? Più precisamente (fino a quando non c'è l'obbligo di consenso):
Come può un titolare dei dati impedire l'uso delle sue informazioni nei modelli di intelligenza artificiale (opt-out)?
Come possono essere cancellate le informazioni da un modello di intelligenza artificiale già esistente successivamente?

Dalle stesse domande derivano una serie di problemi nella pratica, che verranno discusse di seguito.

Quando si hanno dati personali?

Un valore di dati può essere o meno personale, ma spesso non si può stabilire con certezza. Una persona riconosce probabilmente i nomi propri delle persone come tali, ma non sempre. Una macchina (AI) può farlo in modo ancora peggiore.

I dati personali diretti, come nomi o indirizzi di posta, non possono essere identificati con affidabilità dalle macchine.

Un targa automobilistica, un numero di telefono o il nome di una società possono essere considerati personale, ma nessuno lo sa (tranne un conoscitore intimo della targa, del numero di telefono o della società). Una macchina non può quindi sapere se "Maier Ltd." è un valore dati personali. Il nome di una società a responsabilità limitata è infatti personale quando si può dedurre direttamente o indirettamente una persona (vedi Art. 4 Nr. 1 GDPR). Una società a responsabilità limitata con un solo socio è ovviamente personale. Il nome di una società a responsabilità limitata con 50 dipendenti non lo è evidentemente. Ma se il nome della società a responsabilità limitata viene menzionato insieme ad alcune informazioni su un dipendente, come la sua altezza (ad esempio "il nostro dipendente più alto"), allora questa combinazione di nome e dati del dipendente è da considerarsi personale.

I dati possono essere automaticamente classificati come riferiti a una persona o non riferiti a una persona, ma mai in modo affidabile per intero.
Gli algoritmi portano quindi sempre significative incertezze nell'identificazione dei dati personali.

In particolare nell'esempio precedente si capisce che nessuno e niente può considerare dati affidabili se sono o meno riferiti a una persona. Anche un numero di telefono non si può dire subito se appartiene a una persona o a un'azienda e se l'azienda è composta da una persona o più persone.

Come possono essere bloccate le informazioni per l'uso nei modelli di intelligenza artificiale?

La breve risposta è: No di certo. Comunque, questo è lo stato attuale delle cose. Non esiste nessun standard per proteggere i dati dalle pagine web da accessi non autorizzati. Leggere una pagina web pubblica è ovviamente sempre possibile. Esattamente questo è il senso di una pagina web: deve essere accessibile a un pubblico il più ampio possibile. I programmi dei robot (Crawler, Scanner) possono essere difficilmente distinguibili da un lettore umano. Molte pagine web non hanno la possibilità tecnica di fare qualcosa in questo senso. Ecco quanto è avanzata la tecnologia attuale.

Il solo modo attualmente praticabile è l'utilizzo della robots.txt file. Questo file consente ai gestori di siti web di definire quali motori di ricerca possono accedere ai loro contenuti e quali no. Nel frattempo, anche alcune applicazioni AI che scansionano i contenuti rispettano questo file.

Il bloccare i propri dati contro l'utilizzo nei modelli di intelligenza artificiale non è tecnicamente possibile.
Per il momento e per sempre.

Molte applicazioni di intelligenza artificiale non si interessano però affatto a questa robots.txt file o a qualsiasi esclusione desiderata dagli owner del sito web. Inoltre, si tratta di desideri e non di definizioni tecniche. Anche se ChatGPT ad esempio dice che rispetta le richieste di un sito web riguardo all'impedimento dell'accesso dei contenuti al sito tramite l'utilizzo di ChatGPT, si tratta di una questione di fiducia. Chi ancora ha fiducia in OpenAI e ChatGPT dovrebbe ricordarsi i fatti:

L'autorità italiana per la protezione dei dati ha vietato ChatGPT perché OpenAI sembra aver salvato in modo illegale i dati degli utenti, ad esempio le loro risposte.
OpenAI non ha chiesto il consenso dell'utente, ma solo una possibilità di opt-out.
OpenAI ora pubblicizza ChatGPT Enterprise e il vantaggio "Ottenere sicurezza e privacy di livello aziendale". Ecco la traduzione: "Ci atteniamo solo alle norme sulla protezione dei dati, se tu acquisti la versione per l'azienda".

Chi ha fiducia in aziende come OpenAI, Google o Microsoft non appena viene diffusa una notizia di rassicurazione, anche se da queste aziende sono state messe in luce numerose condotte preoccupanti prima, agisce comunque Inquietudine, e non razionalmente.

I dati di crawling da database come The Pile o Common Crawl o C4 agiscono inizialmente indipendentemente da ChatGPT, vengono poi aggiunti a ChatGPT e ad altri modelli AI per l'allenamento dei grandi modelli linguistici. Così un problema diventa un problema multiplo, ovvero uno per ogni lettore di dati.

Come si eliminano i dati da un modello di intelligenza artificiale esistente?

La breve risposta è: Assolutamente no. In ogni caso, non esiste un procedimento matematico con cui si possano cancellare i dati da un modello di intelligenza artificiale con precisione chirurgica (o in generale).

Il solo modo attuale per cancellare i dati da un modello di intelligenza artificiale esistente è quello di eliminare il modello e ristrutturarlo completamente. Al momento del riaddestramento, non si considerano più i dati da eliminare per il training.

Dai modelli di intelligenza artificiale esistenti non possono essere cancellati i dati.
Per il momento e per sempre.

Suona estremamente complesso e costoso. Precisamente è così. Un modello di intelligenza artificiale da zero a trainare, è particolarmente impegnativo per grandi modelli linguistici, molto costoso e richiede un tempo che sembra durare un'eternità anche su server farm enormi. Un server di intelligenza artificiale consuma molta energia elettrica e costa molto perché utilizza almeno una scheda grafica molto cara o più schede grafiche carissime contemporaneamente per poter svolgere i calcoli estremamente lunghi in un tempo accettabile.

Una possibilità pragmatica, ma poco gradevole, per ottenere i dati da un sistema di intelligenza artificiale almeno ufficialmente è quella di "cacciare" la risposta del modello con un filtro. Il filtro elimina poi tutte le occorrenze di un nome o numero di telefono specifico. Tuttavia, ciò non è sempre possibile in modo affidabile. Inoltre, i dati sono disponibili anche quando il modello li contiene ma non li restituisce come risposta. Allo stesso modo, è lo stesso con l'e-mail di un contatto precedente che voleva cancellare i suoi dati, ma i dati non furono cancellati. Quando una autorità di controllo o di polizia effettuerà la prossima verifica (cosa che potrebbe accadere solo raramente) o quando si verificherà il prossimo leak dei dati a causa di un attacco hacker, allora il dilemma sarà visibile per tutti.

Che cosa cambia effettivamente con l'intelligenza artificiale?

Ricerche online danno già da tempo anche risposte ai contenuti letti. Queste risposte sono sicuramente spesso in contrasto con i fatti. Su questo, comunque, non si è ancora lamentata nessuna autorità per la protezione dei dati, quanto ne sappiamo.

I chatbot alimentati da AI possono fornire risposte in una nuova forma, che viene definita astrattiva. Al posto di un citazione il utente riceve un testo in nuove parole. In questo caso possono facilmente verificarsi errori o falsificazioni delle informazioni.

In media sociali la quantità di dichiarazioni false a danno di persone è sicuramente anche non troppo bassa. In questo senso l'agitazione speciale dovuta all'intelligenza artificiale non può essere completamente compresa. Le dichiarazioni attuali hanno un po' una tendenza ad azionismo.

Per salvare l'onore di molti, si è notato che il sconosciuto ("la AI") sembra spingere molte persone a preoccuparsi sinceramente al punto da voler fare qualcosa in proposito. Che da ciò nascano desideri non realizzabili, è analogo al § 26 TDDDG, che però è stato imposto dalla legge dai lobbisti.

Il controllo sui propri dati

In realtà nessuno ha il controllo tecnico sui propri dati, non appena essi possono essere in mano a terzi, ad esempio attraverso la pubblicazione su un sito web o mediante l'utilizzo/dispiegamento dei dati su una piattaforma di social media.

Probabilmente il Garante per la protezione dei dati personali si riferisce alla verifica delle proprie informazioni da parte di specifiche piattaforme, su cui una persona possiede un account come titolare dei dati. Questo caso è importante e rilevante, ma non ha nulla a che fare con l'intelligenza artificiale in particolare. Naturalmente tutti i dati personali dovrebbero essere trattati solo secondo la normativa GDPR, indipendentemente dal fatto che siano elaborati da un'intelligenza artificiale o altrimenti.

Riepilogo

I dati personali non possono essere identificati con certezza come tali. Nessun uomo ci riesce e neppure una macchina. Ciò resterà così per sempre, a meno che la definizione di Art. 4 Nr. 1 GDPR, che definisce cosa sono i dati personali, cambi.

I dati non possono essere bloccati per l'uso in modelli di intelligenza artificiale. Questo problema sarebbe risolvibile solo a livello giuridico. Técnicamente, non è mai sicuro da risolvere. Invece bisogna fidarsi che i crawler rispettino le indicazioni (desideri!) di un sito web. Lì è quasi più sicuro fidarsi di Microsoft, nonostante le enormi lacune di sicurezza che l'azienda ha prodotto, ignorato e minimizzato.

L'intelligenza artificiale non può essere regolata in modo soddisfacente, anche se il desiderio è comprensibile.
I desideri non modificano i limiti oggettivi della realtà.

I dati non possono essere cancellati da modelli di intelligenza artificiale esistenti. Questo problema potrebbe essere risolto in teoria. È più probabile che i modelli di IA vengano semplicemente ricomputati presto, dato che le schede grafiche (GPUs) sono diventate molto più veloci e a buon mercato.

Conclusione

Il desiderio di regolamentazione dellaIntelligenza Artificiale è comprensibile. Ma porta a richieste che sono irrealizzabili e lontane dalla pratica. Se si accetta questo, per dare l'impressione di adempiere ai propri doveri politici o se si tratta solo di ignoranza, lasciamo che sia deciso da altri.

Quando si tratta di dati personali, non è possibile prendere una decisione generale. Forse un'analisi intergalattica potrebbe aiutare?

Una Intelligenza Artificiale si comporta di per sé come un essere umano. Gli esseri umani sono solitamente inaffidabili. Ci si accorge spesso già alla prossima prenotazione di un appuntamento. Anche così chiamati esperti arrivano spesso a risultati falsi o scadenti. Perché dovrebbe essere diverso per un programma informatico che riproduce la funzione intellettiva dell'uomo?

Invece di formulare richieste impossibili da soddisfare, potrebbero essere prima sottoposte a un'attenta valutazione e sanzionate in modo rapido e doloroso le grandi aziende. Dalle conoscenze acquisite possono poi essere derivate ulteriori misure.

Indipendentemente dall'art di regole future per il comportamento del mercato, va notato che gli enormi potenziali, sia positivi che negativi, delle applicazioni AI non possono più essere fermati. Ogni persona può costruire un modello AI sotto la sua scrivania o scaricarlo e utilizzarlo in qualsiasi momento. Sarebbe assolutamente contraproducente se questi modelli di AI potessero essere utilizzati in tutto il mondo, ad eccezione della Germania o dell'UE.

Messaggi chiave

L'addestramento dei modelli di intelligenza artificiale con dati personali, anche provenienti da fonti pubbliche, solleva preoccupazioni sulla privacy e richiede una regolamentazione per proteggere i dati degli individui.

Bloccare i dati per l'uso nei modelli di intelligenza artificiale è attualmente impossibile.

Il desiderio di regolamentare l'intelligenza artificiale è comprensibile, ma molte richieste sono irrealizzabili e lontane dalla pratica.

L'intelligenza artificiale, pur essendo potente, può essere imprecisa come gli esseri umani e richiede regolamentazione per evitare conseguenze negative.

Ulteriori informazioni

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.