Qual è la differenza tra pre-training e fine-tuning nell'IA?

Il pre-training è l'addestramento di un modello di IA con enormi quantità di dati, simile all'educazione di un bambino. Il fine-tuning, invece, è l'adattamento di un modello già pre-addestrato a compiti o dataset specifici per migliorarne le prestazioni.

Quali tipi di dati sono necessari per il pre-addestramento di modelli di IA?

Per il pre-training sono necessarie enormi quantità di dati, tipicamente provenienti da fonti come Common Crawl, The Pile o Wikipedia, per fornire al modello una vasta conoscenza. Questi dati possono comprendere diverse centinaia di gigabyte o addirittura terabyte.

Cos'è il pre-training nei modelli di intelligenza artificiale?

Il pre-training è il processo mediante il quale un modello linguistico di intelligenza artificiale viene addestrato con enormi quantità di dati testuali per sviluppare una comprensione generale del linguaggio e della conoscenza. Questo processo richiede spesso terabyte di dati e può durare ore.

Cos'è il fine-tuning dei LLM e quando viene utilizzato?

Il fine-tuning è un addestramento fine, in cui un modello già pre-addestrato viene adattato a un compito o dominio specifico. Richiede significativamente meno dati rispetto al pre-addestramento e viene utilizzato per migliorare le prestazioni del modello per un compito a valle specifico, ad esempio la generazione di riassunti di testo.

Qual è la differenza tra il pre-addestramento e il fine-tuning nei modelli linguistici?

Il pre-training mira a creare un modello linguistico generale e completo, mentre il fine-tuning ottimizza un modello esistente per un compito specifico. Il pre-training è più intensivo in termini di risorse e utilizza set di dati molto grandi, mentre il fine-tuning è più efficiente e viene applicato a set di dati più piccoli, specifici per l'attività.

Può il fine-tuning dei modelli di IA risolvere i problemi legali del modello di base?

No, un modello di base illecito rimane illecito anche dopo il fine-tuning. Nuovi dati non possono migliorare la situazione legale, poiché il problema di base rimane nel modello.

L'allenamento di modelli AI: cosa significa?

I modelli linguistici e i generatori di immagini basati su intelligenza artificiale sono i tipi di modello più diffusi. Spesso si parla di allenamento, pre-allenamento o fine-tuning. Cosa significano questi termini e quali sono le differenze? Quali dati e soprattutto quante sono necessarie per quale processo?

Introduzione

Un modello di intelligenza artificiale è un cervello elettronico composto da un rete neuronale. Può essere interrogato e risponde. Ciò è possibile in una maniera che ricorda molto il cervello dell'uomo, secondo l'opinione dell'autore. Altri hanno un'altra opinione. In ogni caso anche il cervello umano si basa sulla statistica. Sulla questione di cosa sia l'intelligenza, si veda l'articolo collegato.

Esempi di tipi di modelli di intelligenza artificiale sono:

Modello linguistico di grandi dimensioni, spesso indicato come LLM (LLM = Large Language Model). Nel frattempo esistono però anche SLMs (SLM = Small Language Model) altamente performanti.
Generatore di immagini: da un testo viene generata un'immagine. Spesso anche da un testo e un'immagine di input può essere creata una nuova immagine. Oltre a ciò, possono essere stilisticamente collegati più immagini tra loro.
Testo a voce: dal testo di input il modello di intelligenza artificiale genera un'uscita vocale
La parola pronunciata viene trasformata in un testo dal modello di intelligenza artificiale (Transcrizione)
Riconoscimento di oggetti in immagine o video (segmentazione)
Modelli di prognosi medica

Di seguito si fa riferimento, per semplicità, solo ai modelli linguistici e di immagini dell'intelligenza artificiale, che sono molto comuni nel campo dell'IA.

Ci sono in sostanza due processi di addestramento per i modelli di intelligenza artificiale:

Pre-Training
Fine-Tuning (Raffinamento)

Altri processi di addestramento non esistono in pratica. È possibile un fine-tuning di un modello già fine-tunato, che tecnicamente è analogo al primo fine-tuning.

Cosa significa pre-allenamento e cosa c'è di diverso rispetto all'allineamento fine? Le seguenti rappresentazioni considerano diverse combinazioni:

Pre-allenamento ("Creazione") di un grande modello linguistico, come ad esempio ChatGPT-4
L'allenamento prevede un piccolo grande modello di linguaggio (sì, letto correttamente), come ad esempio GPT-2
Raffinamento del modello da 1.
Aggiustamento del modello da 2.

I casi 1 e 3 sono di solito affari delle società di intelligenza artificiale. Il caso 2 si verifica raramente o, se si verifica, è per modelli più grandi come Llama3-8B. Ma anche il modello 8B viene di solito creato e fornito dalle società di intelligenza artificiale.

Il quarto caso è praticamente realizzabile da ogni azienda. L'obiettivo di questo articolo sono in generale le aziende che vogliono introdurre l'intelligenza artificiale, o le organizzazioni che assistono tali aziende.

Pre-Training

L'allenamento prevede l'apprendimento di un modello di intelligenza artificiale. Il modello di IA non c'è ancora. Viene allenato (pre-training). Poi è là.

Spesso si parla di "allenamento". L'allenamento come concetto non esiste in questo contesto. Quando qualcuno dice "allenamento", intende o pre-allenamento o fine-tuning, a seconda del contesto che si vuole intendere.

Se qualcuno parla di allenamento di un Custom-GPT, si riferisce al fine-tuning. Se qualcuno parla in generale dell'allenamento di un modello linguistico potente, si riferisce all'allenamento pre (ad esempio: "L'allenamento di ChatGPT-4 è costato milioni di ore di calcolo, ho letto").

L'allenamento pre-è l'apprendimento di un modello di intelligenza artificiale.

È equivalente all'istruzione/educazione di un bambino da nascita in poi da parte dei suoi genitori, fino alla formazione scolastica.

In caso di dubbio si deve presumere che con "allenamento" si intenda il "pre-allenamento", perché è più vicino linguisticamente rispetto al "fine tuning".

Per i modelli linguistici sono necessari molti miliardi di documenti con testo, in modo che il modello linguistico possa avere una qualità molto buona. Un documento è solitamente un estratto da una pagina web del web.

Sono note le seguenti fonti di dati:

Common Crawl (CC) o C4 (Colossal Cleaned Common Crawl): circa 700 GB di dati, esclusione di molte pagine web dal web
Il Pile: 825 GB di dati, presuntivamente open-source
Wikipedia (in più lingue)
RidottoWeb: Versione deduplicata e pulita di Common Crawl
StarCoder Data: ca. 780 GB di dati per la generazione del codice di programmazione. Le fonti sono in particolare GitHub e Jupyter Notebooks (sono fogli di calcolo per la creazione leggera di codici programmativi divisibili).

A seconda delle dimensioni di un modello linguistico, il training può durare molto a lungo (molti mesi) o solo poche ore. Per modelli di intelligenza artificiale molto grandi sono state spese rispettivamente milioni di ore su GPU per il pre-training. Con GPU si intendono le schede grafiche. In un server di intelligenza artificiale di alta gamma ci sono 8 schede grafiche al costo di circa 25.000 euro l'una.

Modelli linguistici molto piccoli (GPT-2) non erano considerati tali nemmeno pochi anni fa e rappresentavano lo standard d'oro. Un modello GPT-2 può essere addestrato in poche ore, giorni o settimane su un proprio server di intelligenza artificiale o laptop (pre-addestramento = pre-training). La durata del pre-addestramento dipende dall'estensione dei dati di addestramento.

Perché un modello di linguaggio artificiale sia molto performante, sono necessari alcuni terabyte (mille gigabyte) di testi bruti come dati di addestramento.

Per un buon inizio, anche cento gigabyte sono sufficienti e possono essere letti velocemente. Per questo il preaddestramento del modello di intelligenza artificiale (Pre-Training) dura solo una quantità ragionevole di ore.

Come precisamente dipende anche dall'numero di iterazioni. Una iterazione corrisponde in circa a una classe scolastica. Quanto più classi qualcuno frequenta a scuola, tanto maggiore è la possibilità che l'intelligenza aumenti. Esattamente come nell'uomo, però, dopo un certo punto non porta più nulla di buono andare a scuola ancora un anno in più. Il risultato dell'apprendimento può essere annullato proprio come nell'uomo da un pre-allenamento troppo lungo e peggiorarsi nuovamente.

Un modello di intelligenza artificiale (IA) che è stato addestrato tramite pre-training, viene anche chiamato Foundation Model (FM). Un modello di base può essere utilizzato per compiti generali. Quanto più grande è il modello di base, tanto meglio riesce a risolvere problemi specifici. La grandezza di un modello si esprime nella quantità delle sue connessioni neurali. ChatGPT può calcolare molto bene (almeno meglio della maggior parte degli esseri umani sulla Terra, tenendo conto degli errori che entrambi commettono).

Fine-Tuning

L'adeguamento fine può essere anche chiamato addestramento fine.

La condizione per il fine-tuning è un modello di linguaggio AI già presente. Il modello di linguaggio AI è disponibile dopo essere stato pre-allenato (pre-trained). Solo un modello di linguaggio AI pre-allenato può essere sottoposto a fine-tuning.

L'adeguamento fine è paragonabile a un corso di studio che si aggiunge all'istruzione scolastica.

Senza un'istruzione scolastica, uno studio non è possibile o almeno non ha senso.

Un addestramento fine è utile quando si vuole formare un modello per una specifica attività. Con l'adeguamento fine, il modello linguistico viene quindi ulteriormente formato.

Forse un modello linguistico non riesce a riassumere bene i testi da solo. Ciò potrebbe essere vero anche in casi specifici, ad esempio per una clinica medica che utilizza un vocabolario diverso nei referti medici rispetto a quello presente nei dati di formazione del modello AI.

Il fine-tuning migliora quindi le capacità di un modello di intelligenza artificiale già addestrato in relazione a una specifica configurazione del compito. Questo compito viene anche chiamato Downstream-Task.

A seconda della specifica richiesta e delle capacità di un modello di intelligenza artificiale, nonché del metodo matematico utilizzato per l'addestramento, sono necessarie quantità diverse di dati per ottenere risultati soddisfacenti.

Per la classificazione di testi possono bastare cento esempi per condurre il fine-tuning con successo. Perché un generatore di immagini basato su intelligenza artificiale impari lo stile di un artista, possono essere sufficienti già 10 esempi. Dopo l'addestramento fine, il modello produrrà immagini che avrebbero potuto essere dipinte dall'autore delle 10 immagini d'esempio.

In generale sono necessari e sufficienti molti meno dati di addestramento per il fine-tuning rispetto al pre-allenamento. Si può presumere che il numero di esempi per il fine-tuning non superi spesso i 10.000, e spesso è addirittura molto inferiore a questo numero. Dipende dal caso specifico. Per completezza si deve menzionare un caso speciale: un modello base viene fine-treinato con l'obiettivo di creare una versione effettivamente migliorata del modello base. Ciò è accaduto ad esempio con Llama3. Il sottoprodotto fine-treinato ha ricevuto 64.000 esempi di dati di addestramento. Questo processo viene normalmente eseguito da altri. Si possono quindi utilizzare questi migliorati modelli come se fossero stati presenti fin dall'inizio (pre-allenamento).

Il fine-tuning si verifica in pratica nelle aziende per modelli linguistici piccoli. Piccolo non significa che non sia un grande modello linguistico LLM, ma indica la relazione tra "gigante" (ChatGPT) e "molto buono LLM" (come Llama3-8B). ChatGPT ha probabilmente più di 1000 miliardi di connessioni neurali, mentre un modello da 8B ne ha solo 8. Il "B" sta per "billion" e significa in inglese "miliardo".

Pre-Training versus Fine-Tuning

La seguente panoramica riassume le differenze tra Pre-Training e Fine-Tuning in modo breve e conciso. Nella panoramica sono anche inclusi i caratteristici del trattamento dei dati e dei dati sintetici. I dati sintetici sono generati artificialmente per aumentare l'ampiezza dei dati di addestramento. Questi dati vengono ottenuti con modelli di intelligenza artificiale!

Caratteristica	Pre-Training	Fine-Tuning
Fine ultimo	Creazione di un modello di intelligenza artificiale generale	Miglioramento di un modello di intelligenza artificiale esistente per una specifica configurazione di compito
Analoga	L'educazione di un bambino da parte dei suoi genitori + istruzione scolastica	Studio all'università o ulteriore formazione dopo la scuola
Dati di addestramento	Tanti quanti possibile, spesso miliardi di dati	Spesso bastano 10 esempi, spesso 100. Molto raramente saranno 10.000 o più esempi.
Tempo di calcolo	Per modelli moderni moltissime ore	Pochissime ore fino a settimane
Protezione dei dati personali	Non può essere praticamente rispettato	In generale (solo per i dati di allenamento fine) può essere rispettato
Possibile l'anonimizzazione?	In pratica non ci sono	Sì, in generale molto bene
Diritto d'autore rispettato?	In pratica non ci sono	Sì, in generale molto bene
Dati sintetici utili?	Solo per necessità o per miglioramenti all'interno di una linea di modelli	Sì, per la moltiplicazione dei dati di addestramento e per aumentare la varianza di questi ultimi

Differenze tra pre-allenamento e fine-tuning dei modelli di intelligenza artificiale.

L'anonimizzazione dei dati di addestramento per il fine-tuning si svolge sotto le stesse condizioni del trattamento dei dati personali: tutti i dati che sono già stati introdotti nel modello base durante l'addestramento pregresso non possono essere anonimizzati successivamente. La situazione è ancora peggiore per i dati protetti da diritto d'autore. Infatti, si può vedere solo in seguito se un dato appartiene al lavoro di qualcun altro. Nella protezione dei dati personali si può spesso stabilire se le persone siano coinvolte.

Conclusione

Dall'ottica dei dati il fine-tuning è controllabile per ordini di grandezza meglio del pre-allenamento. Ciò si riferisce comunque solo ai dati che entrano nel fine-tuning. I dati di allenamento iniziali per il pre-allenamento sono già memorizzati nel modello AI, e cioè accessibili.

Il pre-addestramento è una sfida tecnica: dal punto di vista del software, è quasi la stessa cosa della messa a punto. Tuttavia, richiede enormi capacità di calcolo e una quantità estremamente elevata di dati di addestramento.

La messa a punto è completamente diversa. Si gestisce con hardware di livello consumer a prezzi accessibili e molto spesso richiede pochi o pochissimi dati di addestramento.

Il fine training eredita quindi il "cervello" con i dati di allenamento iniziali memorizzati e aggiunge solo pochi nuovi dati. Questi pochi nuovi dati possono essere gestiti molto bene dal punto di vista della GDPR. Tuttavia, rimane un modello base illegale che è stato fine trainingato, un modello fine trainingato illegale. I dati illegali del modello base colorano quindi tutte le versioni successive del modello. Qualcosa di illegale non può essere reso legale aggiungendo qualcosa di conforme al diritto.

I dati sintetici non migliorano realmente la qualità o il rispetto della privacy in un modello di base:

Anche i dati sintetici possono contenere un riferimento a una persona o un'opera protetta da diritto d'autore. Non è un caso, poiché il loro modello sono proprio i dati reali.
Se si ottengono dati sintetici modificando dati reali, possono verificarsi affermazioni false su persone, il che peggiorerebbe la situazione giuridica nel modello di linguaggio per l'intelligenza artificiale.

In generale si può dire: i modelli di intelligenza artificiale sono competitivi solo se presentano dati di addestramento numerosi e di buona qualità. Di conseguenza, in realtà tutti i modelli di intelligenza artificiale competitivi Closed e Open Source sono formalmente illegali. D'altronde anche Mistral è stato allenato con dati dal "web aperto", come dice Mistral stesso.

L'uso continuo e accettato di qualcosa che è formalmente illegale sarà probabilmente considerato lecito o almeno tollerata la "utilizzazione illegale" della AI secondo la logica della scienza giuridica.

Un altro problema è l'utilizzo di servizi cloud come ChatGPT o Azure. Infatti, in questo modo vengono spesso inviate dati di terzi o segreti commerciali propri agli Stati Uniti e ai loro servizi segreti nazionali.

Se l'argomento della sicurezza dei dati non è sufficiente, si suggerisce di specificare i propri casi d'uso e di utilizzare una intelligenza artificiale ottimizzata. Questo tipo di intelligenza artificiale viene chiamato Offline-AI. Esegue funzioni completamente autonome, ad esempio su un server noleggiato o su un server proprietario dell'azienda e spesso fornisce risultati migliori rispetto alle generalizzazioni di intelligenza come ChatGPT.

Messaggi chiave

L'addestramento dei modelli AI consiste in due fasi principali: il pre-addestramento, in cui un modello viene inizialmente addestrato su grandi quantità di dati, e il fine-tuning, in cui il modello viene ulteriormente addestrato su dati specifici per un compito particolare.

Per far funzionare bene un modello linguistico, serve un'enorme quantità di testo come dati di addestramento. Più testo viene usato, più il modello impara e diventa performante.

Addestrare un modello di intelligenza artificiale (IA) con dati specifici migliora le sue prestazioni per compiti particolari.

Il finetuning di modelli linguistici è più controllabile rispetto al pre-training in termini di dati utilizzati, perché richiede meno dati e permette una maggiore anonimizzazione.

I modelli di intelligenza artificiale più performanti sono stati addestrati con dati illegali, quindi sono tutti formalmente illegali.

Ulteriori informazioni