Come memorizza un modello linguistico di IA i dati?

I modelli linguistici basati sull'intelligenza artificiale memorizzano i dati sotto forma di sequenze numeriche, chiamate vettori. Questi vettori vengono creati analizzando le combinazioni di parole e la loro frequenza per riconoscere relazioni semantiche tra le parole.

Può un modello linguistico basato sull'intelligenza artificiale contenere dati personali?

Sì, potenzialmente. Se nomi propri o identificatori come numeri di telefono o numeri di identificazione fiscale vengono memorizzati nei vettori, un modello linguistico basato sull'intelligenza artificiale potrebbe contenere dati personali. Tuttavia, in questo caso viene solitamente utilizzato il vocabolario senza identificatori diretti.

Aumentare l'archiviazione di token aumenta la probabilità che dati personali siano inclusi in un modello di IA?

Sì, l'archiviazione di token, in particolare frammenti di parole, aumenta la probabilità che dati personali siano inclusi in un modello di intelligenza artificiale. Poiché il modello memorizza le parole in frammenti, esiste il rischio che informazioni sensibili siano memorizzate in questi frammenti.

I modelli linguistici basati sull'intelligenza artificiale contengono in genere dati personali?

Sì, i modelli linguistici basati sull'IA contengono in genere dati personali, in particolare quando nomi o altre informazioni sensibili sono memorizzati in frammenti di testo. L'esistenza di un nome in un contesto può essere considerata come dati personali.

Come vengono memorizzati i nomi nei modelli di intelligenza artificiale?

I nomi vengono spesso memorizzati nei modelli di intelligenza artificiale sotto forma di frammenti di parole composti da singoli caratteri. Ciò è più probabile quando il nome non presenta sequenze di lettere comuni e quindi è unico. La memorizzazione avviene in forma pseudonima per proteggere i dati.

Possono i dati personali essere estratti dai modelli di intelligenza artificiale?

Sì, i modelli di IA possono memorizzare e riprodurre dati personali, soprattutto se durante l'addestramento sono stati alimentati con tali informazioni. Ciò si manifesta, ad esempio, attraverso la possibilità di riprodurre dettagli come date di nascita o cartelle cliniche.

Contengono questi modelli dati personali?

Sebbene i modelli linguistici basati sull'IA possano memorizzare frasi e frasi, l'archiviazione di dati personali non è necessariamente garantita. L'archiviazione avviene spesso in un modo che preserva la forma originale dei dati, senza un'archiviazione esplicita di informazioni personali.

Quali componenti sono necessarie per utilizzare un modello di intelligenza artificiale?

Per utilizzare un modello di intelligenza artificiale, è necessario il modello di intelligenza artificiale stesso, il tokenizer, il vocabolario e le librerie standard associate, come la libreria 'transformers'. Questi componenti consentono di caricare, valutare e interrogare il modello.

Sichere KI, digitaler Datenschutz & Website-Compliance

I dati vengono memorizzati dai modelli di linguaggio per l'intelligenza artificiale sotto forma di colonne numeriche. Come funziona esattamente e perché si traduce in questo modo la funzione intellettiva dell'uomo? Sono presenti nel modello di intelligenza artificiale, dopo il training, dati personalizzati o addirittura protetti da diritti d'autore?

Introduzione

La marcia trionfale dell'attuale intelligenza artificiale iniziò nel 2017, quando fu inventato l'approccio Transformer. Lavora con un codificatore e de-codificatore e utilizza così dette impostazioni come vettori di significato (semantica). Un'impostazione è una serie numerica che viene anche chiamata vettore.

Per i modelli linguistici l'idea è quella di determinare il significato di una parola attraverso il suo contesto e salvarlo come vettore. Il contesto di una parola sono in particolare le altre parole nello stesso periodo. La significazione si genera quindi attraverso l'analisi del comune avvenimento di più concetti (coccurrenza).

Una moderna intelligenza artificiale lavora quindi in modo che ogni tipo di dati venga trasformato in serie numeriche. Tipi di dati sono ad esempio i testi (nei modelli linguistici), la lingua parlata, le immagini, i video, la musica, i valori dei sensori di temperatura, i dati meteorologici, i prezzi azionari, i valori sismologici, i dati dei sensore del odore, i valori dei sensori UV e tutto ciò che può essere espresso in numeri, quindi digitalizzato.

Nel modello linguistico di AI vengono a volte memorizzate intere parole.
Valido anche per i modelli di chat più recenti, vedi l'articolo.

Questo corrisponde secondo la mia opinione qualitativamente esattamente a come funziona il cervello umano. Il cervello funziona inizialmente in modo analogico, il computer digitalmente. Poiché le cellule nervose biologiche nell'uomo lavorano con un potenziale d'azione, diventa presto digitale l'analogico.

Per i modelli di linguaggio artificiale vengono quindi suddivisi i testi in unità come frasi e poi trasformati in serie numeriche caricate semanticamente. Ciò viene ad esempio realizzato attraverso l'algoritmo chiamato Word2Vec, che calcola un vettore per ogni parola in un contesto. Nel frattempo ci sono metodi migliori di Word2Vec che lavorano allo stesso modo all'esterno (vedi ad esempio i cosiddetti Sentence Transformer).

Calcoli con vettori

Due vettori possono essere sottratti l'uno dall'altro con la matematica classica; altrettanto può essere calcolata la loro differenza. La differenza è qui la semantica somiglianza o diversità di due concetti, espressi attraverso i loro vettori.

Per un grande insieme di documenti si può calcolare con Word2Vec i vettori per tutti i possibili termini che compaiono nell'insieme dei documenti (corpus). Il sistema non ha alcun senso della grammatica tedesca (o inglese). Tuttavia, "sai" il sistema attraverso confronti di vettori quali termini si comportano semanticamente l'uno rispetto all'altro.

Qualche popolare conclusione che viene resa possibile con Word2Vec è:

La Polonia si comporta rispetto a _Varsavia come la Spagna verso Madrid (il termine in grassetto è quello che Word2Vec ha individuato quando si inseriscono i primi tre termini corsivi).
La parola tedesca Katze corrisponde alla parola inglese Gatto (con Word2Vec possono essere effettuate traduzioni, e ciò anche in modo contestuale: "Schnecke" può essere un animale, ma anche un dispositivo di pompaggio).
_Cancelliere più donna meno uomo = Cancelleressa

La base di tutto ciò sono solo parole che compaiono nel contesto, quindi in frasi. Esattamente così possono anche gli uomini capire i testi, con la differenza attuale che le macchine hanno molto meno esperienza ambientale degli esseri umani. Ciò si assicurerà di cambiare presto e condurrà a far sì che i robot diventino le esistenze più intelligenti su questo pianeta (e altri pianeti) . A meno che l'uomo non si sia estinto da qualche altra parte prima di allora e non possa più costruire questi robot.

Tornando alla domanda, su come un modello di linguaggio basato sull'intelligenza artificiale memorizza i dati, cioè i concetti e se questi possono essere riferiti a persone. Un riferimento personale sarebbe da confermare se si trattasse di nomi propri o identificatori come numeri di telefono, targhe automobilistiche o codici di identificazione fiscale ricostruibile memorizzati nel modello di linguaggio.

Esempio per la memorizzazione dei dati nel modello di IA

Il seguente screenshot mostra un estratto dal vocabolario di un modello di intelligenza artificiale tedesco, che segue l'architettura GPT-2 di OpenAI. GPT-2 è stato reso pubblicamente disponibile a differenza dei suoi successori.

Estratto dalle 52.000 voci di un modello tedesco GPT-2

In totale il vocabolario è composto da 52.000 parole scelte a caso. La ragione di questa relativamente bassa quantità (misurata rispetto al numero maggiore di parole esistenti in tedesco) si trova sotto.

Sono riconoscibili dati a coppia. La prima parte è codificata in giallo nell'immagine e rappresenta un concetto. Il secondo elemento è l'indice o identificatore del concetto e qui da vedere in blu.

Al considerare i termini, si nota che molti hanno un segno fastidioso davanti. Ciò dipende dalla codifica del vocabolario e verrà risolto più avanti.

I termini sono stati identificati utilizzando numerosi testi per l'addestramento del modello linguistico. Il corpus dei testi è stato formato nel modello di esempio reale attraverso un estratto da Wikipedia, il corpus EU Bookshop , Open Subtitles, _CommonCrawl__, ParaCrawl e News Crawl. ([1])

I testi sono stati poi scomposti in parole, il che rappresenta una certa sfida. Questo problema appartiene all'ambito della NLP. La NLP (Natural Language Processing) è l'elaborazione dei testi linguistici naturali (o altre modalità). Anche i framework molto diffusi e sviluppati come Scipy e Spacy si lasciano spesso errori che solo un esperto di intelligenza artificiale riesce a gestire utilizzando routine personalizzate per la rielaborazione.

I modelli linguistici AI possono riprodurre interi enunciati con precisione lessicale, che sono quindi memorizzati nel modello linguistico in questo modo.
Si applica anche a ChatGPT-3.5 e ChatGPT-4, vedi l'articolo.

Al momento di individuare i concetti emergono molti risultati imprecisi, come mostrato qui sopra. I concetti vengono individuati in modo convenzionale, quindi non con nuove metodologie AI. Essi rappresentano una Stadio preliminare. Solo dopo l'individuazione dei concetti viene applicata la nuova metodologia AI, utilizzando i concetti per creare un modello di linguaggio AI, che viene chiamato Training. I modelli addestrati vengono chiamati "pre-addestrati", e non "addestrati". Ciò è dovuto al fatto che è possibile addestrare ulteriormente i modelli, il che viene chiamato Finetuning. Inoltre, i modelli una volta addestrati possono essere utilizzati direttamente. Sono quindi pre-trained (pre-trained).

Alcuni dei termini non si leggono come parole valide. Ecco una selezione dei termini appena mostrati con breve commento (dettagli e motivazioni ulteriori in basso):

direittspopul → Sottofrazione (inizio parola). Intero termine è probabilmente "direittpopolistico" (con eventuali suffissi opzionali "e" o "en").
Bemessungs → Forse è stato composto con trattino (base di calcolo).
Memmingen → Denominazione corretta (in ogni caso esistente) di una città tedesca.
Tasman → Sottofrazione (inizio parola). Intero nome è probabilmente "Tasmania".
Straßenbahnen → Ä, Ö, Ü und ß vengono codificati in modo illeggibile, il che rende il termine solo apparentemente strano per l'uomo, non per un interprete meccanico.
Italian → Forse un testo tedesco conteneva una parola inglese. Non per caso, ChatGPT-3 può anche parlare tedesco, nonostante sia stato addestrato principalmente per l'inglese. È anche possibile che i testi letti in altre lingue siano stati riconosciuti come tedeschi in modo errato.

Il tokenizzatore come generatore di parole o frasi

Le parole vengono estratte dai testi utilizzando un cosiddetto Tokenizzatore. Un token è una unità semantica, qui una parola. Per GPT2 esiste il Tokenizer con il nome tecnico GPT2Tokenizer.

Il tokenizzatore non ha solo il compito di individuare le parole, cioè di trovare i limiti delle parole. In realtà, il tokenizzatore cerca di attribuire un significato a una parola che viene definito in forma numerica. Il tokenizzatore GPT-2 attribuisce un significato diverso a una parola se si trova all'inizio della frase piuttosto che al centro o alla fine della frase.

Ciò porta a volte a risultati ridicolmente pessimi, come mostrato dall'esempio ufficiale seguente per il Tokenizer (vedi link precedente due paragrafi fa):

Il set di input "Ciao mondo" porta alla seguente uscita del Tokenizer: [15496, 995]. Da due parole vengono quindi calcolate due numeri che dovrebbero catturare la semantica della frase.

Il fatto che i modelli linguistici moderni di intelligenza artificiale conservino frammenti di parole e intere parole sotto forma di token, non è una condizione necessaria per l'esistenza di dati personali in un modello di IA, ma peggiora la situazione.

Il set di input quasi identico "Ciao mondo", al quale è stato aggiunto (senza senso, ma insignificante per l'uomo) uno spazio vuoto, produce invece la diversa uscita [18435, 995]. "Ciao" riceve quindi il valore 15496, mentre " Ciao" con uno spazio vuoto davanti ottiene l'altro valore 18435.

Generare due numeri diversi per lo stesso "parola" significa qui introdurre al modello di linguaggio artificiale qualcosa di falso.

Il tokenizzatore GPT-2 è un tokenizzatore chiamato Byte-Pair-Encoding o BPE-tokenizzatore. Il BPE codifica le parole in cosiddetti Token. I Token rappresentano frammenti di parole e hanno anche una funzione compressiva, perché i frammenti di parole possono comparire in più espressioni e quindi possono essere memorizzate con maggiore efficienza. Un'espressione può tuttavia anche essere archiviata per intero, in modo che corrisponda esattamente a un Token.

È spiegabile in questo modo il fatto che le parole sopra citate siano state create. Una semplice verifica conferma almeno in parte che la parola "Bemessungs" è stata derivata dal vocabolo completo "Bemessungsgrundlage", dal vocabolo completo "Bemessungs-Grundlage" o dal vocabolo completo "Bemessungsgrundlagen". A titolo di esempio, sono riportati seguenti dati dal lessico del modello linguistico per intelligenza artificiale tedesco GPT-2:

"Valutazione"
"Basis"
"Basis"
"Basi fondamentali"
"Basi fondamentali"

Il primo concetto "ĠBemessungs" ha un primo carattere che sembra strano, stampato qui in grassetto per chiarimento. Questo carattere indica che si tratta di un inizio di parola.

I termini due a quattro non sono iniziative di parole, perché il loro primo carattere non è un segno di controllo. L'ingresso "base" nel vocabolario suggerisce quindi che un parola composta con trattino come "Bemessungs-base" esiste nel corpus del test dei dati di addestramento ( "Bemessungs" come inizio di parola più "base" come fine di parola).

Il termine "cinque" invece si chiama "base" e viene considerato come inizio di parola a causa del primo carattere, che è un segno di punteggiatura. Pertanto, gli elementi due e cinque dell'elenco sopra sono due (almeno dal punto di vista del modello AI) frammenti di parole diversi. Da un lato, "base" è la fine della parola, dall'altro è "base" come inizio di parola. Per completezza: un frammento di parola che rappresenta l'inizio può essere considerato come una parola completa, a cui non deve necessariamente essere associata una possibile completazione finale. "Base" è ovviamente una parola autonoma per il lettore tedesco. Un termine come "creazione della base" (qui costruito ad esempio) ha lo stesso inizio di parola, ma inoltre un suffisso aggiuntivo e quindi una diversa significato evidente.

In generale si può considerare che i modelli di linguaggio dell'intelligenza artificiale contengano sia dati personali che rilevanti per i diritti d'autore.
Giustificazioni: Vedi contributo.

La verifica analogica può essere effettuata per le parole "Tasman" e "rechtspopul" menzionate sopra e mostrate nell'immagine. "Tasman" indica chiaramente la Tasmania. E infatti, nel vocabolario del modello GPT-2 è presente l'ingresso "ien". Se questo ingresso non fosse presente, la spiegazione precedente sarebbe un po' incerta. Ma non lo è. Anche per "rechtspopul" si trovano le estensioni attese (estensioni di parole) "istico", "istica", "istici", "istico" e "istico". Manca solo "istico", ma questo è OK, perché i testi di addestramento non devono necessariamente contenere questa parola.

Quanto meno un termine compare nel corpus dei dati di addestramento, tanto più a lungo sarà memorizzato nel vocabolario. Un termine che compare una sola volta sarà probabilmente archiviato in forma pura. Un concetto molto frequente composto da molti caratteri potrebbe essere archiviato sotto forma di frammenti di parole, ciascuno dei quali contiene due o tre caratteri. Per esempio, un termine come "ĠAsylpolitik" (il primo carattere è il segno di controllo che indica che il concetto rappresenta l'inizio di una parola o un vocabolo completo) potrebbe essere archiviato in questo modo. In ogni caso, sarebbero comunque visibili solo i frammenti di parole facoltativi come "er", "erin" e "erinnen" e le loro forme (ad esempio Asylpolitiker, Asylpolitikerin ecc.).

La superficie di OpenAI mostra come un testo d'ingresso venga trasformato in token. Ecco un esempio reale ([1]) :

Fonte: OpenAI Tokenizer. (l'immagine è stata tradotta automaticamente).

Dal testo di input "Ciao, questo è un testo", composto da 23 caratteri, vengono generati 10 token. I token sono colorati nell'immagine sottostante. Sono presenti ad esempio "Hall", "o", ", ", ",", "d", "as" ecc. In questo caso il solo token che rappresenta una parola intera è quello per il concetto di "testo" nel prompt di input. Una interfaccia web ancora più visiva consente la selezione di modelli di chat specifici e visualizza i costi previsti per la tokenizzazione. Attenzione: il processo complessivo di un chat comprende ulteriori passaggi. In particolare, quando si interrogano documenti caricati, i costi aumentano.

Un frammento di parola potrebbe già essere personale. Ciò è, naturalmente, molto meno probabile che un concetto completo scritto in modo esplicito, composto da più frammenti di parole. Tuttavia, è possibile. Inoltre, i nomi con caratteri speciali (vedi ad esempio le lettere delle altre lingue che non sono presenti nel set di caratteri standard tedesco) sono raramente suddivisi in frammenti di parola perché non hanno sequenze di lettere comuni con altri concetti. Quindi, spesso si trovano come parole complete e quindi nel vocabolario della IA.

Un nome o un cognome possono essere personale. Sebbene possa dubitare che l'esistenza isolata e contestuale di un nome in una collezione di parole sia un problema, la situazione cambia quando si nomina un nome o un altro valore dati personali in un contesto specifico. Un tale contesto viene chiamato frase. Di seguito, più informazioni su questo argomento. Prima della domanda su come un modello di intelligenza artificiale genera parole.

Come si ricompone un linguaggio da frammenti di parole?

Spesso quando si interroga un modello di intelligenza artificiale (AI), l'input dell'utente (chiamato anche "promemoria") viene utilizzato per generare una risposta. Questa risposta, come dimostrano le esperienze quotidiane con ChatGPT e altri modelli linguistici, consiste in nomi e termini completi. È quindi immediatamente evidente che il risultato della interrogazione di un modello AI si presenta sotto forma di parole inserite in un contesto. Questo contesto è formato da frasi.

Interessante è la domanda se si possa dire che un modello di intelligenza artificiale anche in stato di quiete possa contenere dati personali. Per frammenti di parole questa minaccia esiste già, come mostrato prima.

Che sono i dati personali?

I dati personali sono anche i dati che pseudonimo presentano. Pseudonimo significa che un valore di dati diventa personale solo dopo la decodifica. Quale sia il fatto che la decodifica venga effettuata o solo oggettivamente possibile, non ha importanza. Si veda Art. 4 n. 1 GDPR o anche il Breyer-Urteil del Tribunale di Giustizia dell'UE (gli indirizzi IP sono dati personali perché esiste l' oggettiva possibilità di identificare l'utente).

Come decodifica un sistema di intelligenza artificiale le serie numeriche a parole?

Inizialmente, durante l'addestramento di un modello di linguaggio artificiale, vengono generate le sequenze di parole descritte sopra, che si chiamano token. Ogni token viene rappresentato da un numero. Ciò consente ai computer di lavorare meglio.

Quindi vengono generate (a seconda dell'applicazione) sequenze numeriche da singole frasi composte da token, che si chiamano vettori e rappresentano sottoposte a caricamento semantico.

Queste immissioni, quindi vettori, quindi serie numeriche, vengono memorizzate in un reticolo neuronale artificiale di un modello di intelligenza artificiale. Il modello consiste quindi "soltanto" in serie numeriche. Questo è una rappresentazione un po' semplificata e imprecisa, ma sufficiente per la considerazione. Una raccolta di vettori che si trovano in relazione tra loro viene chiamato Tensore.

Un modello di linguaggio per l'intelligenza artificiale salva dati personali in forma anonima. I dati anonimi sono dati personali.
Confronta l'articolo e l'articolo 4, n. 1 del Regolamento UE n. 2016/679 (GDPR).

Quando un utente formula una domanda sotto forma di promemoria al modello AI, la richiesta dell'utente viene anche trasformata in serie numeriche, cioè vettori, cioè embedding. Per questo scopo si utilizza il tokenizzatore descritto sopra.

Il modello di intelligenza artificiale confronta i vettori (= richiesta dell'utente) con i vettori (= "conoscenza" che è stata impartita al modello di IA in forma di dati di addestramento). Il risultato sono nuovamente dei vettori (uno o più, a seconda della lunghezza dell'output del modello di IA).

Questi vettori di uscita, quindi sequenze numeriche, quindi embedding semantici, vengono decodificati nuovamente con l'aiuto del tokenizzatore appena menzionato. Si forma un insieme di parole che noi chiamiamo frasi.

Il tokenizzatore codifica e decodifica quindi i testi. Codifica i testi durante l'allenamento del modello di intelligenza artificiale e per la trasformazione di un promemoria in una forma che il modello di intelligenza artificiale comprende. Dopo la risposta del modello di intelligenza artificiale, ci sono serie di numeri che il tokenizzatore comprende e può riportare nuovamente a parole sulla base dell'assegnazione dei frammenti di parola ai numeri (vedere sopra).

Quali informazioni sono contenute nel modello di intelligenza artificiale?

Supponiamo che i frammenti di parole (che possono anche rappresentare intere parole o nomi) non contengano o non contengano dati personali critici. Inesistente potrebbe essere ad esempio un nome. Cosa c'è di proibito nel sapere che esiste una persona con il nome John Doe? Non vedo alcun problema se non ci sono ulteriori conoscenze associate a questo nome. Se manca il contesto, la conoscenza di un nome è probabilmente inesistente. Altrimenti potrebbe essere diverso per una numero di telefono o un indirizzo e-mail, perché questi possono comportare il rischio di pubblicità non lecita ecc.

È da supporre che un modello di intelligenza artificiale conservi dati in modo tale da possano essere considerati come riferibili a persone? La breve risposta è Sì. Ecco la prova:

ChatGPT viene posta la seguente domanda, a cui ChatGPT risponde con la citata risposta:

Domanda a ChatGPT: "Citare il primo periodo dell'art. 1 del GDPR fedelmente La risposta di ChatGPT: „L'articolo 1, comma 1 della Regolamentazione generale sulla protezione dei dati (GDPR) recita: "Questa regolamentazione stabilisce norme per la protezione delle persone fisiche in materia di trattamento dei dati personali e per il libero movimento di tali dati
I modelli linguistici AI possono riprodurre testi addestrati con precisione. Ecco un esempio con ChatGPT-3.5

ChatGPT risponde correttamente alla domanda qui con un preciso citazione. Evidentemente si deve presumere che singole frasi intere siano esattamente presenti nel modello AI.

Nel caso di esempio appena citato non sono presenti dati personali, ma potrebbero esserlo in qualsiasi momento. Ciò che conta è la domanda posta. L'esempio deve dimostrare che nei modelli linguistici per l'intelligenza artificiale i dati vengono salvati esattamente. Dai frammenti di parole si ricavano non solo le parole, ma anche intere frasi. Per inciso, in Articolo 99 GDPR sono presenti nomi di persona.

Esempio diverso dell'8 dicembre 2023:

Come si può vedere, è possibile estrarre qualsiasi tipo di dati personali con un semplice promemoria innocuo dal modello linguistico (in questo caso: ChatGPT!) . Tutto ciò può essere anche automatizzato facilmente, poiché ChatGPT offre una interfaccia di programmazione delle applicazioni (API)! La fonte sopra ha fatto lo stesso:

Using only $200 USD worth of queries to ChatGPT (gpt-3.5- turbo), we are able to extract over 10,000 unique verbatim- memorized training examples.
Vedi sopra.

La seguente affermazione sarebbe probabilmente rilevante dal punto di vista legale, se fosse riprodotta da un modello di intelligenza artificiale, perché queste informazioni sarebbero soggette al diritto alla protezione dei dati: „Miri Maiering-Höflacher di Tuttlingen ha compiuto 17 anni il 17.04.1994 e nonostante i suoi capelli rossi completi all'epoca, ora non ne ha più perché soffre di cancro del tipo X e malattia Y che si è procurata a causa delle sue attività nel quartiere della Reeperbahn“

Basi tecnico-scientifiche

La seguente immagine illustra che nei Trasformatore, alla base di ogni modello linguistico attuale, i dati di posizione delle inserzioni testuali vengono codificati.

Fonte: Dr. GDPR (angelehnt an Mehreen Saeed). (l'immagine è stata tradotta automaticamente).

Dalla lettura di un testo vengono inizialmente creati Tokeni, che poi vengono trasformati in vettori di parole. I vettori di parole sono sostanzialmente serie di numeri. Inoltre, per ogni parola o token viene codificata la sua posizione nel testo d'ingresso. L'inserimento di una parola più la codifica della sua posizione risulta poi l'uscita per i passaggi successivi di elaborazione del Transformer e quindi del modello linguistico.

Il Transformer si basa su un rivoluzionario articolo intitolato Attention Is All You Need del 2017. Quest'anno può essere considerato l'inizio dell'era moderna della IA. In questo articolo è citato:

Self-attention, sometimes called intra-attention, is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.
Citazione dal foglio Attention Is All You Need –

La frase di testo afferma che con un procedimento matematico chiamato Attenzione ( "attenzione" ) le diverse posizioni dei dati di input vengono prese in considerazione per trasformarli in una struttura carica semantico. L'attenzione è qui una capacità che riconosce dai dati di input quelle che sembrano importanti per un contesto specifico (e non altro è questo ragionamento con alta percentuale di successo che anche l'uomo fa).

Per una maggiore precisione dell'approccio vengono utilizzati cosiddetti Capimuti. Un capo ( "Head" ) è qui una schicht che riceve un'ingresso (nel modello linguistico si tratta di un testo):

The idea behind multi-head attention is to allow the attention function to extract information from different representation subspaces, which would otherwise be impossible with a single attention head.
Fonte: Stefania Cristina.

Questo significa che viene utilizzata la Multi-Head Attention per migliorare le capacità di un modello linguistico. Ciò comporta anche il fatto che una riproduzione fedele dei dati, che sono stati forniti a un modello linguistico in forma di dati di addestramento, diventa meno probabile rispetto all'uso di solo un capo di ingresso. Tuttavia, come mostrato dall'esempio sopra di ChatGPT, la proprietà del modello linguistico di riprodurre testi appresi fedelmente non viene persa in questo modo.

Invece, ogni frase o periodo viene memorizzato nel modello linguistico in modo il più possibile univoco. L'immagine seguente lo illustra. Ecco rappresentate le rappresentazioni interne di due frasi:

Technical Phrase: „to understand machine learning algorithms you need to understand concepts such as gradient of a function, Hessians of a matrix and optimization etc“.
Divination: „patrick henry said give me liberty or give me death when he addressed the second virginia convention in march“.

Nota tecnica: "hessian" non ha nulla a che fare con l'Hessen, la regione con la più inattiva autorità per la protezione dei dati della Germania, ma si riferisce alla forma normale di Hesse o matrice di Hesse.

L'immagine mostra la rappresentazione grafica delle rappresentazioni numeriche interne delle due frasi menzionate. A sinistra nell'immagine è rappresentata la frase tecnica e a destra la frase sapienziale.

Le due rappresentazioni sembrano simili solo a prima vista, ma si differenziano notevolmente in generale. Ogni altra frase dovrebbe avere una rappresentazione completamente diversa, in modo che ogni frase possa essere memorizzata e rappresentata internamente in un modello linguistico in modo univoco.

Soprattutto per la traduzione di testi vengono utilizzate strutture Encoder-Decoder. Nell'encoder viene inserito il testo da tradurre. Dal decoder viene estratto il testo tradotto. Entrambi i componenti sono addestrati con dati di training composti da coppie di testi d'ingresso e riferimenti tradotti.

I due enunciati possono essere così trasformati l'uno nell'altro, traducendo il testo di input nel testo di output di un modello linguistico per intelligenza artificiale.

Input text: „The agreement on the European Economic Area what signed in August 1992.“
Esito (Traduzione): „L'accordo sulla zona economica europea è stato firmato nel agosto 1992“

In termini figurativi, la rappresentazione interna di parole da ingresso a uscita può essere rappresentata in questo modo:

Fonte: Badanau et al., delimitazione rossa effettuata in proprio.

Sopra sono visibili le parole del testo di input da tradurre. A sinistra sono mostrate le parole del testo tradotto. I punti di intersezione tra due parole indicano in colore la forza della correlazione tra i due termini. Bianco significa massima correlazione (bianca). Quindi, il termine "signé" è massimamente correlato con "signed", il che sembra corretto perché entrambi i termini nel contesto specificato sono equivalenti in francese e inglese. D'altra parte, le due parole francesi "a" e "éte" sono solo debolmente (grigio) correlate al termine inglese "what", perché entrambe le parole francesi insieme vengono tradotte in un singolo termine inglese. La zona rossa delimitata mostra le relative codifiche di colore.

Un altro esempio mostra come la posizione di una parola nel modello di intelligenza artificiale sia memorizzata per identificare le parole semanticamente correlate a un'attuale parola processata dal modello linguistico:

Ogni riga di testo citata mostra dall'alto verso il basso il passaggio successivo di elaborazione del testo di input nel modello AI. In rosso è stampato la parola attualmente in elaborazione. Con colore azzurro sono evidenziati le parole riconosciute dal modello linguistico come rilevanti per la parola corrente. Quanto più scuro l'azzurro, tanto più rilevante la parola.

Con gli esempi di rappresentazione interna delle parole nei modelli linguistici dell'intelligenza artificiale mostrati, si dimostra che non solo le posizioni delle parole in un modello linguistico dell'intelligenza artificiale vengono memorizzate, ma anche intere frasi e proposizioni, quindi ricostruibili quando il modello viene interrogato. Senza codifica di posizione, un modello linguistico dell'intelligenza artificiale non fornirebbe risultati utili, almeno per i modelli linguistici standard con le attività previste (in sostanza: generazione di testo).

Una pubblicazione del 2018 (quindi un po' datata) osserva che il Transformer non fornisce una memorizzazione particolarmente esatta delle informazioni di posizione:

The transformer has no recurrent or convolutional structure, even with the positional encoding added to the embedding vector, the sequential order is only weakly incorporated.
Fonte: Lillian Weng.

Tuttavia sembra che questo non abbia un impatto negativo reale sulla capacità dei modelli linguistici attuali di riprodurre interi enunciati nella loro forma originale, e quindi rilevante dal punto di vista della protezione dei dati (se si citano dati personali). Un altro argomento sembra essere che l'approccio menzionato nel contributo non sia stato adottato. SNAIL avrebbe dovuto curare la presunta debolezza dei trasformatori, ovvero la loro incapacità di memorizzare informazioni sulla posizione. Poiché SNAIL è attualmente più rilevante, i trasformatori sono già stati adottati e possono citare interi enunciati senza errori, l'affermazione sopra citata di Weng è ormai meno rilevante.

In via di principio si deve considerare che un modello linguistico di intelligenza artificiale basato su un moderno procedimento come Transformer può conservare i dati delle input di formazione nella loro forma originale, anche se ciò non accade in ogni caso.

Qualche parola sui Transformer

Il approccio Transformer nella sua forma originaria, come proposto nel paper "Attention Is All You Need“, si basa sull'architettura Encoder-Decoder sopra menzionata.

Fonte: Vaswani et al., marchio rosso aggiunto manualmente.

Come si può vedere, sia l'Encoder che il Decoder si basano su codifiche di posizione e altrettanto su Embeddings (Embeddings = Vettori = Serie numeriche).

Esistono altre architetture di Transformer, cioè:

Codifica-Decodifica: Approccio originale, in particolare per le traduzioni o le sintesi di testo,
Decoder-only: Modelli linguistici causali, ad esempio per i chatbot come ChatGPT, ma anche LLaMA, Bard, T5 e altri.
Modello di encoder solo: modelli linguistici con mascheratura, ad esempio BERT.

Le differenze si trovano nei dettagli e non possono essere esaminate qui in modo approfondito. Fondamentale è il fatto che tutte le architetture Transformer abbiano proprietà analoghe riguardo all'archiviazione dei dati ( "allenamento" ) e alla richiesta delle informazioni imparate.

Che cosa serve per estrarre informazioni da un modello di intelligenza artificiale?

Un modello di intelligenza artificiale da solo, senza informazioni aggiuntive, rappresenta una semplice raccolta di numeri, se lo si considera in modo un po' semplificato. Da ciò probabilmente non può sorgere alcun problema di protezione dei dati.

Tuttavia, nessuno salva un modello di intelligenza artificiale senza avere la possibilità o il desiderio di utilizzarlo anche lui stesso. I pezzi necessari per l'utilizzo di un modello di intelligenza artificiale sono:

Un tokenizzatore: un codice di programma che può essere scaricato in forma standardizzata in qualsiasi momento se è stato cancellato nel frattempo.
Lessico (frammenti di parole) per il tokenizzatore: Un file di testo o un file composto principalmente da caratteri stampabili.
Modello AI: Elenco di serie numeriche (una descrizione semplificata).
Il trasformatore: un codice di programma che può essere scaricato in forma standardizzata in qualsiasi momento, se per caso fosse stato cancellato nel frattempo.

Una vera e propria raccolta dei dati di base di un modello di intelligenza artificiale è qui rappresentata:

I dati da cui un modello di intelligenza artificiale è composto.

Queste informazioni sono state fornite per consentire a qualcuno di scaricare e utilizzare il modello GPT2. La file principale è pytorch_model.bin ed ha una dimensione di circa 3,7 GB. Il file vocab.json contiene i token descritti sopra. La file README.md contiene un'istruzione su come utilizzare il modello. Le altre file con estensione .json sono molto piccole e contengono informazioni di configurazione.

Con un modello di intelligenza artificiale si comporta come con un archivio ZIP, in cui le file sono salvate in forma compressa. Nessuno salva a scopo deliberato file ZIP senza poter poi accedere nuovamente a essi. Per questo è necessario un programma ZIP che possa creare e decomprimere queste file.

L'analogia è con i file PDF: un file PDF può essere aperto solo da chi ha un lettore di PDF. Questi programmi di lettura possono essere scaricati da qualsiasi parte in ogni momento. Lo stesso vale per il codice del Tokenizer e del Transformer, nonché per il vocabolario di un modello specifico di intelligenza artificiale. I modelli di IA vengono sempre offerti con tutti i componenti necessari, o se non è così, allora viene fornita una descrizione su dove trovare questi componenti.

Dettagli tecnici

Solo in breve possono essere nominate alcune sfumature tecniche. In un modello di intelligenza artificiale i token non vengono semplicemente memorizzati. Piuttosto, essi contengono anche informazioni sulle posizioni dei token.

Il seguente semplice codice di programma standard chiarisce come caricare un modello GPT allenato e come accedere sia alla rappresentazione interna dei token che alle loro posizioni:

from transformers import GPT2LMHeadModel #import library
model = GPT2LMHeadModel.from_pretrained('gpt2') # load AI LLM
I tokenizzazioni degli embed sono = modello.transformer.wte.peso # Token Embedding
position_embeddings = model.transformer.wpe.weight # Token Positionen Embeddings

La biblioteca Python chiamata transformers è un standard assoluto e può essere scaricata in qualsiasi momento dal web. È anche open-source.

I commenti alla fine delle righe iniziano con un quadrato premesso e spiegano brevemente cosa fa il codice del programma. Si utilizza qui il modello GPT2, perché è ancora disponibile gratuitamente, a differenza dei successori di OpenAI. Dopo aver caricato il modello GPT, si può valutare. Nell'esempio di codice sopra riportato, per questo scopo vengono letti i pesi come rappresentazione interna dei token memorizzati nel modello. Inoltre, in modo analogo, vengono letti i pesi per le posizioni dei token gli uni rispetto agli altri.

Per utilizzare un modello di intelligenza artificiale (AI) e ricevere una risposta, si potrebbe utilizzare il seguente codice:

# Convert question into Token-IDs
input_ids = tokenizer(\["Are Cookies text files?"\], return_tensors="pt")
# Convert Token-IDs into embeddings
embeds = model.transformer.wte.weight\[input_ids, :\]
# Retrieve answer from AI LLM
outputs = model(inputs_embeds=embeds)
# Convert first answer into text
antwort = tokenizer.decode(outputs\[0\])
# Output the answer
print(antwort) #Result would be at best: "No, cookies are not text files"

Il codice mostra i singoli passaggi per interrogare un modello e ricevere la risposta in una forma leggibile dall'uomo. Di solito si programma diversamente da come è indicato nell'esempio.

Conclusione

I modelli linguistici di AI conservano dati potenzialmente personali, in quanto conservano interi vocaboli, parti del vocabolo e combinazioni di vocaboli ( = inizi di parola e relative possibili fine di parola). In un modello di AI ci sono almeno dei dati pseudonimi.

Modelli linguistici di intelligenza artificiale moderni come ChatGPT e altri modelli basati sul Transformer memorizzano i dati di addestramento a livello di parola o addirittura di frase, potenzialmente nel loro formato originale.
Le parole vengono potenzialmente salvate in forma compressa (spesso ma non sempre) e leggibili dall'uomo, le frasi sotto forma di riferimenti alle parole con informazioni sulla posizione.

I modelli linguistici di intelligenza artificiale sono in grado di riprodurre interi enunciati dalle informazioni d'ingresso con esattezza lessicale. Questa capacità, sebbene non sempre affidabile, deve essere considerata come tale.

Dai modelli di intelligenza artificiale possono essere estratti dati utilizzando i relativi metadati e librerie standard. Senza questi componenti, un modello di IA è inutilizzabile e non può più essere considerato come tale.

Se un modello di intelligenza artificiale viene eseguito localmente su un proprio server di intelligenza artificiale, possono essere risolti molti problemi di dati. Una grande capacità dei modelli locali è possibile in particolare nei Assistenti per domande e risposte, ma anche nei motori di ricerca documentali o generatori di immagini. Al contrario, quando si utilizzano modelli di terze parti come OpenAI, Microsoft o Google, esiste il problema che i dati di input finiscono da qualche parte e nessuno sa dove.

Si consigliano modelli linguistici specifici per compiti aziendali. Questi si basano tipicamente su modelli addestrati, pubblicamente disponibili e altrettanto performanti. La qualità è spesso migliore di quella di ChatGPT, perché il sistema cerca di fare tutto e quindi può essere considerato particolarmente impreciso, come mostrano semplici ricerche (vedi link sopra).

Messaggi chiave

I modelli linguistici dell'intelligenza artificiale trasformano il testo in serie numeriche per comprenderne il significato.

I modelli linguistici basati sull'intelligenza artificiale imparano i significati delle parole analizzando come vengono utilizzate in frasi e possono quindi essere utilizzati per compiti come traduzioni e identificazione di concetti.

I modelli linguistici AI, come ChatGPT, possono commettere errori nell'identificare concetti e possono generare parole o frasi che non hanno senso.

I modelli linguistici moderni possono memorizzare frammenti di parole e intere parole, il che può portare a problemi di privacy perché questi frammenti possono essere utilizzati per identificare informazioni personali.

I modelli linguistici di intelligenza artificiale possono contenere informazioni personali e soggette a copyright perché imparano dai dati di addestramento.

Anche se i modelli di intelligenza artificiale sembrano lavorare solo con numeri, possono comunque contenere dati personali in forma anonima.

I modelli linguistici AI memorizzano dati, inclusi interi testi e frasi, che possono contenere informazioni personali.

I modelli linguistici come ChatGPT possono rivelare dati personali sensibili, anche se vengono interrogati con domande innocue. Questo perché memorizzano informazioni dal loro addestramento e possono essere facilmente programmati per estrarre dati specifici.

L'utilizzo di Multi-Head Attention permette ai modelli linguistici di memorizzare le frasi in modo più univoco, migliorando la loro capacità di comprensione e traduzione.

I modelli linguistici moderni, come i Transformer, possono memorizzare interi enunciati e quindi potenzialmente conservare i dati di input originali.

Per utilizzare un modello di intelligenza artificiale, servono diversi componenti, come il tokenizzatore, il vocabolario e il modello stesso, che sono disponibili come file scaricabili.

I modelli di intelligenza artificiale memorizzano informazioni, compresi pezzi di parole e frasi, che potrebbero essere personali.

Per ottenere risultati migliori, è meglio usare modelli linguistici specifici per le esigenze aziendali, anziché modelli generici come ChatGPT.

Ulteriori informazioni