Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Intelligenza Artificiale: Dati personali nei modelli di IA

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Articolo in formato PDF (solo per gli abbonati alla newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Molti chiedono la regolamentazione delle applicazioni di intelligenza artificiale. I dati di massa per l'addestramento dei modelli di IA dovrebbero, in via ideale, non contenere più dati personali, anche se questi provengono da fonti pubbliche. Ciò è richiesto ad esempio dal Garante per la protezione dei dati personali federale. Cosa significa questo nella pratica?

Introduzione

Un modello di intelligenza artificiale è un cervello elettronico, che rappresenta una rete neurale. Le connessioni tra i neuroni rappresentano la conoscenza, esattamente come nel cervello umano. La conoscenza viene imbeccata attraverso l'accesso a milioni o miliardi di documenti online gratuiti. A questi documenti appartengono in particolare le pagine web.

In molti di questi testi, che entrano in modelli di IA, sono presenti dati personali. Queste informazioni finiscono quindi nei dati di addestramento di un'intelligenza artificiale. E addirittura: le uscite generate da un chatbot sulla base dei dati di addestramento possono contenere anch'esse questi dati personali.

Il fatto che queste informazioni personali finiscano nei modelli di intelligenza artificiale sembra problematico a molti, come ad esempio il commissario per la protezione dei dati della Germania, dal momento che da questi dati in modelli di IA si originano diverse domande:

  1. Il titolare dei dati (la persona interessata) è d'accordo con il fatto che i suoi dati personali finiscano in un certo modello di intelligenza artificiale? Più precisamente (fino a quando non c'è l'obbligo di consenso):
  2. Come può un titolare dei dati impedire l'uso delle sue informazioni nei modelli di intelligenza artificiale (opt-out)?
  3. Come possono essere cancellate le informazioni da un modello di intelligenza artificiale già esistente successivamente?

Dalle stesse domande derivano una serie di problemi nella pratica, che verranno discusse di seguito.

Quando si hanno dati personali?

Un valore di dati può essere o meno personale, ma spesso non si può stabilire con certezza. Una persona riconosce probabilmente i nomi propri delle persone come tali, ma non sempre. Una macchina (AI) può farlo in modo ancora peggiore.

I dati personali diretti, come nomi o indirizzi di posta, non possono essere identificati con affidabilità dalle macchine.

Un targa automobilistica, un numero di telefono o il nome di una società possono essere considerati personale, ma nessuno lo sa (tranne un conoscitore intimo della targa, del numero di telefono o della società). Una macchina non può quindi sapere se "Maier Ltd." è un valore dati personali. Il nome di una società a responsabilità limitata è infatti personale quando si può dedurre direttamente o indirettamente una persona (vedi Art. 4 Nr. 1 GDPR). Una società a responsabilità limitata con un solo socio è ovviamente personale. Il nome di una società a responsabilità limitata con 50 dipendenti non lo è evidentemente. Ma se il nome della società a responsabilità limitata viene menzionato insieme ad alcune informazioni su un dipendente, come la sua altezza (ad esempio "il nostro dipendente più alto"), allora questa combinazione di nome e dati del dipendente è da considerarsi personale.

I dati possono essere automaticamente classificati come riferiti a una persona o non riferiti a una persona, ma mai in modo affidabile per intero.

Gli algoritmi portano quindi sempre significative incertezze nell'identificazione dei dati personali.

In particolare nell'esempio precedente si capisce che nessuno e niente può considerare dati affidabili se sono o meno riferiti a una persona. Anche un numero di telefono non si può dire subito se appartiene a una persona o a un'azienda e se l'azienda è composta da una persona o più persone.

Come possono essere bloccate le informazioni per l'uso nei modelli di intelligenza artificiale?

La breve risposta è: No di certo. Comunque, questo è lo stato attuale delle cose. Non esiste nessun standard per proteggere i dati dalle pagine web da accessi non autorizzati. Leggere una pagina web pubblica è ovviamente sempre possibile. Esattamente questo è il senso di una pagina web: deve essere accessibile a un pubblico il più ampio possibile. I programmi dei robot (Crawler, Scanner) possono essere difficilmente distinguibili da un lettore umano. Molte pagine web non hanno la possibilità tecnica di fare qualcosa in questo senso. Ecco quanto è avanzata la tecnologia attuale.

Il solo modo attualmente praticabile è l'utilizzo della robots.txt file. Questo file consente ai gestori di siti web di definire quali motori di ricerca possono accedere ai loro contenuti e quali no. Nel frattempo, anche alcune applicazioni AI che scansionano i contenuti rispettano questo file.

Il bloccare i propri dati contro l'utilizzo nei modelli di intelligenza artificiale non è tecnicamente possibile.

Per il momento e per sempre.

Molte applicazioni di intelligenza artificiale non si interessano però affatto a questa robots.txt file o a qualsiasi esclusione desiderata dagli owner del sito web. Inoltre, si tratta di desideri e non di definizioni tecniche. Anche se ChatGPT ad esempio dice che rispetta le richieste di un sito web riguardo all'impedimento dell'accesso dei contenuti al sito tramite l'utilizzo di ChatGPT, si tratta di una questione di fiducia. Chi ancora ha fiducia in OpenAI e ChatGPT dovrebbe ricordarsi i fatti:

  1. L'autorità italiana per la protezione dei dati ha vietato ChatGPT perché OpenAI sembra aver salvato in modo illegale i dati degli utenti, ad esempio le loro risposte.
  2. OpenAI non ha chiesto il consenso dell'utente, ma solo una possibilità di opt-out.
  3. OpenAI ora pubblicizza ChatGPT Enterprise e il vantaggio "Ottenere sicurezza e privacy di livello aziendale". Ecco la traduzione: "Ci atteniamo solo alle norme sulla protezione dei dati, se tu acquisti la versione per l'azienda".

Chi ha fiducia in aziende come OpenAI, Google o Microsoft non appena viene diffusa una notizia di rassicurazione, anche se da queste aziende sono state messe in luce numerose condotte preoccupanti prima, agisce comunque Inquietudine, e non razionalmente.

I dati di crawling da database come The Pile o Common Crawl o C4 agiscono inizialmente indipendentemente da ChatGPT, vengono poi aggiunti a ChatGPT e ad altri modelli AI per l'allenamento dei grandi modelli linguistici. Così un problema diventa un problema multiplo, ovvero uno per ogni lettore di dati.

Come si eliminano i dati da un modello di intelligenza artificiale esistente?

La breve risposta è: Assolutamente no. In ogni caso, non esiste un procedimento matematico con cui si possano cancellare i dati da un modello di intelligenza artificiale con precisione chirurgica (o in generale).

Il solo modo attuale per cancellare i dati da un modello di intelligenza artificiale esistente è quello di eliminare il modello e ristrutturarlo completamente. Al momento del riaddestramento, non si considerano più i dati da eliminare per il training.

Dai modelli di intelligenza artificiale esistenti non possono essere cancellati i dati.

Per il momento e per sempre.

Suona estremamente complesso e costoso. Precisamente è così. Un modello di intelligenza artificiale da zero a trainare, è particolarmente impegnativo per grandi modelli linguistici, molto costoso e richiede un tempo che sembra durare un'eternità anche su server farm enormi. Un server di intelligenza artificiale consuma molta energia elettrica e costa molto perché utilizza almeno una scheda grafica molto cara o più schede grafiche carissime contemporaneamente per poter svolgere i calcoli estremamente lunghi in un tempo accettabile.

Una possibilità pragmatica, ma poco gradevole, per ottenere i dati da un sistema di intelligenza artificiale almeno ufficialmente è quella di "cacciare" la risposta del modello con un filtro. Il filtro elimina poi tutte le occorrenze di un nome o numero di telefono specifico. Tuttavia, ciò non è sempre possibile in modo affidabile. Inoltre, i dati sono disponibili anche quando il modello li contiene ma non li restituisce come risposta. Allo stesso modo, è lo stesso con l'e-mail di un contatto precedente che voleva cancellare i suoi dati, ma i dati non furono cancellati. Quando una autorità di controllo o di polizia effettuerà la prossima verifica (cosa che potrebbe accadere solo raramente) o quando si verificherà il prossimo leak dei dati a causa di un attacco hacker, allora il dilemma sarà visibile per tutti.

Che cosa cambia effettivamente con l'intelligenza artificiale?

Ricerche online danno già da tempo anche risposte ai contenuti letti. Queste risposte sono sicuramente spesso in contrasto con i fatti. Su questo, comunque, non si è ancora lamentata nessuna autorità per la protezione dei dati, quanto ne sappiamo.

I chatbot alimentati da AI possono fornire risposte in una nuova forma, che viene definita astrattiva. Al posto di un citazione il utente riceve un testo in nuove parole. In questo caso possono facilmente verificarsi errori o falsificazioni delle informazioni.

In media sociali la quantità di dichiarazioni false a danno di persone è sicuramente anche non troppo bassa. In questo senso l'agitazione speciale dovuta all'intelligenza artificiale non può essere completamente compresa. Le dichiarazioni attuali hanno un po' una tendenza ad azionismo.

Per salvare l'onore di molti, si è notato che il sconosciuto ("la AI") sembra spingere molte persone a preoccuparsi sinceramente al punto da voler fare qualcosa in proposito. Che da ciò nascano desideri non realizzabili, è analogo al § 26 TDDDG, che però è stato imposto dalla legge dai lobbisti.

Il controllo sui propri dati

In realtà nessuno ha il controllo tecnico sui propri dati, non appena essi possono essere in mano a terzi, ad esempio attraverso la pubblicazione su un sito web o mediante l'utilizzo/dispiegamento dei dati su una piattaforma di social media.

Probabilmente il Garante per la protezione dei dati personali si riferisce alla verifica delle proprie informazioni da parte di specifiche piattaforme, su cui una persona possiede un account come titolare dei dati. Questo caso è importante e rilevante, ma non ha nulla a che fare con l'intelligenza artificiale in particolare. Naturalmente tutti i dati personali dovrebbero essere trattati solo secondo la normativa GDPR, indipendentemente dal fatto che siano elaborati da un'intelligenza artificiale o altrimenti.

Riepilogo

I dati personali non possono essere identificati con certezza come tali. Nessun uomo ci riesce e neppure una macchina. Ciò resterà così per sempre, a meno che la definizione di Art. 4 Nr. 1 GDPR, che definisce cosa sono i dati personali, cambi.

I dati non possono essere bloccati per l'uso in modelli di intelligenza artificiale. Questo problema sarebbe risolvibile solo a livello giuridico. Técnicamente, non è mai sicuro da risolvere. Invece bisogna fidarsi che i crawler rispettino le indicazioni (desideri!) di un sito web. Lì è quasi più sicuro fidarsi di Microsoft, nonostante le enormi lacune di sicurezza che l'azienda ha prodotto, ignorato e minimizzato.

L'intelligenza artificiale non può essere regolata in modo soddisfacente, anche se il desiderio è comprensibile.

I desideri non modificano i limiti oggettivi della realtà.

I dati non possono essere cancellati da modelli di intelligenza artificiale esistenti. Questo problema potrebbe essere risolto in teoria. È più probabile che i modelli di IA vengano semplicemente ricomputati presto, dato che le schede grafiche (GPUs) sono diventate molto più veloci e a buon mercato.

Conclusione

Il desiderio di regolamentazione dellaIntelligenza Artificiale è comprensibile. Ma porta a richieste che sono irrealizzabili e lontane dalla pratica. Se si accetta questo, per dare l'impressione di adempiere ai propri doveri politici o se si tratta solo di ignoranza, lasciamo che sia deciso da altri.

Quando si tratta di dati personali, non è possibile prendere una decisione generale. Forse un'analisi intergalattica potrebbe aiutare?

Una Intelligenza Artificiale si comporta di per sé come un essere umano. Gli esseri umani sono solitamente inaffidabili. Ci si accorge spesso già alla prossima prenotazione di un appuntamento. Anche così chiamati esperti arrivano spesso a risultati falsi o scadenti. Perché dovrebbe essere diverso per un programma informatico che riproduce la funzione intellettiva dell'uomo?

Invece di formulare richieste impossibili da soddisfare, potrebbero essere prima sottoposte a un'attenta valutazione e sanzionate in modo rapido e doloroso le grandi aziende. Dalle conoscenze acquisite possono poi essere derivate ulteriori misure.

Indipendentemente dall'art di regole future per il comportamento del mercato, va notato che gli enormi potenziali, sia positivi che negativi, delle applicazioni AI non possono più essere fermati. Ogni persona può costruire un modello AI sotto la sua scrivania o scaricarlo e utilizzarlo in qualsiasi momento. Sarebbe assolutamente contraproducente se questi modelli di AI potessero essere utilizzati in tutto il mondo, ad eccezione della Germania o dell'UE.

Messaggi chiave

L'addestramento dei modelli di intelligenza artificiale con dati personali, anche provenienti da fonti pubbliche, solleva preoccupazioni sulla privacy e richiede una regolamentazione per proteggere i dati degli individui.

Bloccare i dati per l'uso nei modelli di intelligenza artificiale è attualmente impossibile.

Il desiderio di regolamentare l'intelligenza artificiale è comprensibile, ma molte richieste sono irrealizzabili e lontane dalla pratica.

L'intelligenza artificiale, pur essendo potente, può essere imprecisa come gli esseri umani e richiede regolamentazione per evitare conseguenze negative.

Ulteriori informazioni

Computer-generiertes Bild
Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Analytics come strumento efficace per il furto di dati da parte del cybercrime