Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

L'allenamento di modelli AI: cosa significa?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Articolo in formato PDF (solo per gli abbonati alla newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

I modelli linguistici e i generatori di immagini basati su intelligenza artificiale sono i tipi di modello più diffusi. Spesso si parla di allenamento, pre-allenamento o fine-tuning. Cosa significano questi termini e quali sono le differenze? Quali dati e soprattutto quante sono necessarie per quale processo?

Introduzione

Un modello di intelligenza artificiale è un cervello elettronico composto da un rete neuronale. Può essere interrogato e risponde. Ciò è possibile in una maniera che ricorda molto il cervello dell'uomo, secondo l'opinione dell'autore. Altri hanno un'altra opinione. In ogni caso anche il cervello umano si basa sulla statistica. Sulla questione di cosa sia l'intelligenza, si veda l'articolo collegato.

Esempi di tipi di modelli di intelligenza artificiale sono:

  • Modello linguistico di grandi dimensioni, spesso indicato come LLM (LLM = Large Language Model). Nel frattempo esistono però anche SLMs (SLM = Small Language Model) altamente performanti.
  • Generatore di immagini: da un testo viene generata un'immagine. Spesso anche da un testo e un'immagine di input può essere creata una nuova immagine. Oltre a ciò, possono essere stilisticamente collegati più immagini tra loro.
  • Testo a voce: dal testo di input il modello di intelligenza artificiale genera un'uscita vocale
  • La parola pronunciata viene trasformata in un testo dal modello di intelligenza artificiale (Transcrizione)
  • Riconoscimento di oggetti in immagine o video (segmentazione)
  • Modelli di prognosi medica

Di seguito si fa riferimento, per semplicità, solo ai modelli linguistici e di immagini dell'intelligenza artificiale, che sono molto comuni nel campo dell'IA.

Ci sono in sostanza due processi di addestramento per i modelli di intelligenza artificiale:

  1. Pre-Training
  2. Fine-Tuning (Raffinamento)

Altri processi di addestramento non esistono in pratica. È possibile un fine-tuning di un modello già fine-tunato, che tecnicamente è analogo al primo fine-tuning.

Cosa significa pre-allenamento e cosa c'è di diverso rispetto all'allineamento fine? Le seguenti rappresentazioni considerano diverse combinazioni:

  1. Pre-allenamento ("Creazione") di un grande modello linguistico, come ad esempio ChatGPT-4
  2. L'allenamento prevede un piccolo grande modello di linguaggio (sì, letto correttamente), come ad esempio GPT-2
  3. Raffinamento del modello da 1.
  4. Aggiustamento del modello da 2.

I casi 1 e 3 sono di solito affari delle società di intelligenza artificiale. Il caso 2 si verifica raramente o, se si verifica, è per modelli più grandi come Llama3-8B. Ma anche il modello 8B viene di solito creato e fornito dalle società di intelligenza artificiale.

Il quarto caso è praticamente realizzabile da ogni azienda. L'obiettivo di questo articolo sono in generale le aziende che vogliono introdurre l'intelligenza artificiale, o le organizzazioni che assistono tali aziende.

Pre-Training

L'allenamento prevede l'apprendimento di un modello di intelligenza artificiale. Il modello di IA non c'è ancora. Viene allenato (pre-training). Poi è là.

Spesso si parla di "allenamento". L'allenamento come concetto non esiste in questo contesto. Quando qualcuno dice "allenamento", intende o pre-allenamento o fine-tuning, a seconda del contesto che si vuole intendere.

Se qualcuno parla di allenamento di un Custom-GPT, si riferisce al fine-tuning. Se qualcuno parla in generale dell'allenamento di un modello linguistico potente, si riferisce all'allenamento pre (ad esempio: "L'allenamento di ChatGPT-4 è costato milioni di ore di calcolo, ho letto").

L'allenamento pre-è l'apprendimento di un modello di intelligenza artificiale.

È equivalente all'istruzione/educazione di un bambino da nascita in poi da parte dei suoi genitori, fino alla formazione scolastica.

In caso di dubbio si deve presumere che con "allenamento" si intenda il "pre-allenamento", perché è più vicino linguisticamente rispetto al "fine tuning".

Per i modelli linguistici sono necessari molti miliardi di documenti con testo, in modo che il modello linguistico possa avere una qualità molto buona. Un documento è solitamente un estratto da una pagina web del web.

Sono note le seguenti fonti di dati:

  • Common Crawl (CC) o C4 (Colossal Cleaned Common Crawl): circa 700 GB di dati, esclusione di molte pagine web dal web
  • Il Pile: 825 GB di dati, presuntivamente open-source
  • Wikipedia (in più lingue)
  • RidottoWeb: Versione deduplicata e pulita di Common Crawl
  • StarCoder Data: ca. 780 GB di dati per la generazione del codice di programmazione. Le fonti sono in particolare GitHub e Jupyter Notebooks (sono fogli di calcolo per la creazione leggera di codici programmativi divisibili).

A seconda delle dimensioni di un modello linguistico, il training può durare molto a lungo (molti mesi) o solo poche ore. Per modelli di intelligenza artificiale molto grandi sono state spese rispettivamente milioni di ore su GPU per il pre-training. Con GPU si intendono le schede grafiche. In un server di intelligenza artificiale di alta gamma ci sono 8 schede grafiche al costo di circa 25.000 euro l'una.

Modelli linguistici molto piccoli (GPT-2) non erano considerati tali nemmeno pochi anni fa e rappresentavano lo standard d'oro. Un modello GPT-2 può essere addestrato in poche ore, giorni o settimane su un proprio server di intelligenza artificiale o laptop (pre-addestramento = pre-training). La durata del pre-addestramento dipende dall'estensione dei dati di addestramento.

Perché un modello di linguaggio artificiale sia molto performante, sono necessari alcuni terabyte (mille gigabyte) di testi bruti come dati di addestramento.

Per un buon inizio, anche cento gigabyte sono sufficienti e possono essere letti velocemente. Per questo il preaddestramento del modello di intelligenza artificiale (Pre-Training) dura solo una quantità ragionevole di ore.

Come precisamente dipende anche dall'numero di iterazioni. Una iterazione corrisponde in circa a una classe scolastica. Quanto più classi qualcuno frequenta a scuola, tanto maggiore è la possibilità che l'intelligenza aumenti. Esattamente come nell'uomo, però, dopo un certo punto non porta più nulla di buono andare a scuola ancora un anno in più. Il risultato dell'apprendimento può essere annullato proprio come nell'uomo da un pre-allenamento troppo lungo e peggiorarsi nuovamente.

Un modello di intelligenza artificiale (IA) che è stato addestrato tramite pre-training, viene anche chiamato Foundation Model (FM). Un modello di base può essere utilizzato per compiti generali. Quanto più grande è il modello di base, tanto meglio riesce a risolvere problemi specifici. La grandezza di un modello si esprime nella quantità delle sue connessioni neurali. ChatGPT può calcolare molto bene (almeno meglio della maggior parte degli esseri umani sulla Terra, tenendo conto degli errori che entrambi commettono).

Fine-Tuning

L'adeguamento fine può essere anche chiamato addestramento fine.

La condizione per il fine-tuning è un modello di linguaggio AI già presente. Il modello di linguaggio AI è disponibile dopo essere stato pre-allenato (pre-trained). Solo un modello di linguaggio AI pre-allenato può essere sottoposto a fine-tuning.

L'adeguamento fine è paragonabile a un corso di studio che si aggiunge all'istruzione scolastica.

Senza un'istruzione scolastica, uno studio non è possibile o almeno non ha senso.

Un addestramento fine è utile quando si vuole formare un modello per una specifica attività. Con l'adeguamento fine, il modello linguistico viene quindi ulteriormente formato.

Forse un modello linguistico non riesce a riassumere bene i testi da solo. Ciò potrebbe essere vero anche in casi specifici, ad esempio per una clinica medica che utilizza un vocabolario diverso nei referti medici rispetto a quello presente nei dati di formazione del modello AI.

Il fine-tuning migliora quindi le capacità di un modello di intelligenza artificiale già addestrato in relazione a una specifica configurazione del compito. Questo compito viene anche chiamato Downstream-Task.

A seconda della specifica richiesta e delle capacità di un modello di intelligenza artificiale, nonché del metodo matematico utilizzato per l'addestramento, sono necessarie quantità diverse di dati per ottenere risultati soddisfacenti.

Per la classificazione di testi possono bastare cento esempi per condurre il fine-tuning con successo. Perché un generatore di immagini basato su intelligenza artificiale impari lo stile di un artista, possono essere sufficienti già 10 esempi. Dopo l'addestramento fine, il modello produrrà immagini che avrebbero potuto essere dipinte dall'autore delle 10 immagini d'esempio.

In generale sono necessari e sufficienti molti meno dati di addestramento per il fine-tuning rispetto al pre-allenamento. Si può presumere che il numero di esempi per il fine-tuning non superi spesso i 10.000, e spesso è addirittura molto inferiore a questo numero. Dipende dal caso specifico. Per completezza si deve menzionare un caso speciale: un modello base viene fine-treinato con l'obiettivo di creare una versione effettivamente migliorata del modello base. Ciò è accaduto ad esempio con Llama3. Il sottoprodotto fine-treinato ha ricevuto 64.000 esempi di dati di addestramento. Questo processo viene normalmente eseguito da altri. Si possono quindi utilizzare questi migliorati modelli come se fossero stati presenti fin dall'inizio (pre-allenamento).

Il fine-tuning si verifica in pratica nelle aziende per modelli linguistici piccoli. Piccolo non significa che non sia un grande modello linguistico LLM, ma indica la relazione tra "gigante" (ChatGPT) e "molto buono LLM" (come Llama3-8B). ChatGPT ha probabilmente più di 1000 miliardi di connessioni neurali, mentre un modello da 8B ne ha solo 8. Il "B" sta per "billion" e significa in inglese "miliardo".

Pre-Training versus Fine-Tuning

La seguente panoramica riassume le differenze tra Pre-Training e Fine-Tuning in modo breve e conciso. Nella panoramica sono anche inclusi i caratteristici del trattamento dei dati e dei dati sintetici. I dati sintetici sono generati artificialmente per aumentare l'ampiezza dei dati di addestramento. Questi dati vengono ottenuti con modelli di intelligenza artificiale!

CaratteristicaPre-TrainingFine-Tuning
Fine ultimoCreazione di un modello di intelligenza artificiale generaleMiglioramento di un modello di intelligenza artificiale esistente per una specifica configurazione di compito
AnalogaL'educazione di un bambino da parte dei suoi genitori + istruzione scolasticaStudio all'università o ulteriore formazione dopo la scuola
Dati di addestramentoTanti quanti possibile, spesso miliardi di datiSpesso bastano 10 esempi, spesso 100. Molto raramente saranno 10.000 o più esempi.
Tempo di calcoloPer modelli moderni moltissime orePochissime ore fino a settimane
Protezione dei dati personaliNon può essere praticamente rispettatoIn generale (solo per i dati di allenamento fine) può essere rispettato
Possibile l'anonimizzazione?In pratica non ci sonoSì, in generale molto bene
Diritto d'autore rispettato?In pratica non ci sonoSì, in generale molto bene
Dati sintetici utili?Solo per necessità o per miglioramenti all'interno di una linea di modelliSì, per la moltiplicazione dei dati di addestramento e per aumentare la varianza di questi ultimi
Differenze tra pre-allenamento e fine-tuning dei modelli di intelligenza artificiale.

L'anonimizzazione dei dati di addestramento per il fine-tuning si svolge sotto le stesse condizioni del trattamento dei dati personali: tutti i dati che sono già stati introdotti nel modello base durante l'addestramento pregresso non possono essere anonimizzati successivamente. La situazione è ancora peggiore per i dati protetti da diritto d'autore. Infatti, si può vedere solo in seguito se un dato appartiene al lavoro di qualcun altro. Nella protezione dei dati personali si può spesso stabilire se le persone siano coinvolte.

Conclusione

Dall'ottica dei dati il fine-tuning è controllabile per ordini di grandezza meglio del pre-allenamento. Ciò si riferisce comunque solo ai dati che entrano nel fine-tuning. I dati di allenamento iniziali per il pre-allenamento sono già memorizzati nel modello AI, e cioè accessibili.

Il pre-addestramento è una sfida tecnica: dal punto di vista del software, è quasi la stessa cosa della messa a punto. Tuttavia, richiede enormi capacità di calcolo e una quantità estremamente elevata di dati di addestramento.

La messa a punto è completamente diversa. Si gestisce con hardware di livello consumer a prezzi accessibili e molto spesso richiede pochi o pochissimi dati di addestramento.

Il fine training eredita quindi il "cervello" con i dati di allenamento iniziali memorizzati e aggiunge solo pochi nuovi dati. Questi pochi nuovi dati possono essere gestiti molto bene dal punto di vista della GDPR. Tuttavia, rimane un modello base illegale che è stato fine trainingato, un modello fine trainingato illegale. I dati illegali del modello base colorano quindi tutte le versioni successive del modello. Qualcosa di illegale non può essere reso legale aggiungendo qualcosa di conforme al diritto.

I dati sintetici non migliorano realmente la qualità o il rispetto della privacy in un modello di base:

  • Anche i dati sintetici possono contenere un riferimento a una persona o un'opera protetta da diritto d'autore. Non è un caso, poiché il loro modello sono proprio i dati reali.
  • Se si ottengono dati sintetici modificando dati reali, possono verificarsi affermazioni false su persone, il che peggiorerebbe la situazione giuridica nel modello di linguaggio per l'intelligenza artificiale.

In generale si può dire: i modelli di intelligenza artificiale sono competitivi solo se presentano dati di addestramento numerosi e di buona qualità. Di conseguenza, in realtà tutti i modelli di intelligenza artificiale competitivi Closed e Open Source sono formalmente illegali. D'altronde anche Mistral è stato allenato con dati dal "web aperto", come dice Mistral stesso.

L'uso continuo e accettato di qualcosa che è formalmente illegale sarà probabilmente considerato lecito o almeno tollerata la "utilizzazione illegale" della AI secondo la logica della scienza giuridica.

Un altro problema è l'utilizzo di servizi cloud come ChatGPT o Azure. Infatti, in questo modo vengono spesso inviate dati di terzi o segreti commerciali propri agli Stati Uniti e ai loro servizi segreti nazionali.

Se l'argomento della sicurezza dei dati non è sufficiente, si suggerisce di specificare i propri casi d'uso e di utilizzare una intelligenza artificiale ottimizzata. Questo tipo di intelligenza artificiale viene chiamato Offline-AI. Esegue funzioni completamente autonome, ad esempio su un server noleggiato o su un server proprietario dell'azienda e spesso fornisce risultati migliori rispetto alle generalizzazioni di intelligenza come ChatGPT.

Messaggi chiave

L'addestramento dei modelli AI consiste in due fasi principali: il pre-addestramento, in cui un modello viene inizialmente addestrato su grandi quantità di dati, e il fine-tuning, in cui il modello viene ulteriormente addestrato su dati specifici per un compito particolare.

Per far funzionare bene un modello linguistico, serve un'enorme quantità di testo come dati di addestramento. Più testo viene usato, più il modello impara e diventa performante.

Addestrare un modello di intelligenza artificiale (IA) con dati specifici migliora le sue prestazioni per compiti particolari.

Il finetuning di modelli linguistici è più controllabile rispetto al pre-training in termini di dati utilizzati, perché richiede meno dati e permette una maggiore anonimizzazione.

I modelli di intelligenza artificiale più performanti sono stati addestrati con dati illegali, quindi sono tutti formalmente illegali.

Ulteriori informazioni

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

La protezione dei dati personali: Cosa sono i dati personali?