Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

AI: quale modello linguistico è il migliore?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Articolo in formato PDF (solo per gli abbonati alla newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Un nuovo modello linguistico (LLM) ha fatto recentemente scalpore. Ha ottenuto il punteggio più alto in un popolare benchmark ed è stato persino significativamente migliore di ChatGPT-4 Omni, l'attuale modello premium di OpenAI. Ma qual è il modello linguistico migliore?

Introduzione

Con il Benchmark AlpacaEval vengono testate nuove modelli linguistici. La cosiddetta Win-Rate indica quanto bene un LLM si è comportato nel test. Ecco i primi posti dei modelli che possono essere considerati noti:

Sul primo posto si trova GPT-4 Omni di OpenAI con una Win Rate del 57,5 %. Questa percentuale viene calcolata senza considerare la lunghezza (LC Win Rate). Ciò significa che le Tassi di profitto guidate dalla lunghezza (LC) riducono le distorsioni di lunghezza di GPT-4. In questo modo si tiene conto del fatto che GPT-4 è un modello "di riserva" e ha alcune peculiarità che altri modelli sarebbero svantaggiati senza la correzione.

Passiamo ora ai modelli linguistici della comunità che sono meno conosciuti. La classifica dei modelli della comunità si presenta come segue:

Come si può notare, il modello con il nome NullModel è al primo posto. Ha un tasso di vittoria LC dell'86,5%. Al contrario, ChatGPT-4 Omni ha ottenuto solo il 57,5% (16° posto nella classifica, che comprende anche i modelli della comunità).

Il benchmark in sé non è un buon rappresentante per le attività di intelligenza artificiale che si verificano nel vostro azienda o ente. Infatti, si tratta molto della task. Alcuni modelli possono comprendere meglio le domande, altri possono inferire meglio o ancora altri possono riassumere meglio o tradurre testi.

Soprattutto però è rilevante per le aziende tedesche che Tedesco è di solito la lingua principale nell'azienda e nei documenti scritti. I benchmark sono però di solito ottimizzati per l'inglese o altre lingue, come il cinese o l'hindi.

La particolarità del vincitore del test

Di per sé, un benchmark è quindi più un indicatore che una dichiarazione affidabile.

Es es una peculiarità con il vincitore del test, NullModel:ha truccato. Ma la cosa più perfida è ancora da venire: il modello di linguaggio NullModel fornisce sempre la stessa risposta* a tutte le domande che vengono poste nel benchmark. Il codice per questo è addirittura pubblicamente accessibile.

Il NullModel si piazza quindi al primo posto nei risultati del test, nonostante dia sempre la stessa risposta alle domande. Le domande hanno però tutte risposte giuste completamente diverse l'una dall'altra. Se le risposte giuste fossero sempre "Sì" allora non ci sarebbero problemi.

In realtà quindi ci sono molte risposte diverse per le molte domande nel Benchmark che sono corrette. Tuttavia, il Benchmark fornisce le Bestnoten per l'LLM, che sempre dà la stessa risposta.

Quindi il benchmark è stato ingannato.

Qual è il miglior modello linguistico?

Un avvocato direbbe: dipende. Dipende dalla domanda.

Se non si conosce l'uso che si intende fare di un sistema di intelligenza artificiale, i problemi sono completamente diversi da quelli di trovare il modello linguistico migliore. I modelli familiari mostrati nella prima illustrazione sono molto adatti a un chatbot generico.

Se si vuole utilizzare il sapere tratto dall'Internet, ChatGPT fallisce regolarmente. La ragione è che un sistema a basso costo (dal punto di vista dell'utilizzatore, che spesso paga anche con i suoi dati) non può eseguire una ricerca Internet per ogni promemoria in modo arbitrario. Ciò sarebbe semplicemente insostenibile per OpenAI. Come si legge su Anthropic e il loro Computer Use-approccio, presto diventa molto costoso. Si possono raggiungere addirittura 20 dollari all'ora per un compito che richiede ricerche. Purtroppo non è noto al momento di inviare la domanda alla AI, quante difficoltà ci sono nell'ottenere il risultato.

Il miglior modello linguistico per un caso d'uso nella vostra azienda è un LLM finemente addestrato.

Alcune raccomandazioni per i modelli linguistici sono utili per la giusta impostazione e l'avvio di una strategia di IA.

Dimensione del modello linguistico

Come regola generale vale: quanto più vaga è la domanda di lavoro, tanto più grande dovrebbe essere il LLM. L'esempio massimo è ChatGPT. Questo modello è così enorme che il costo della hardware per l'uso supera i milioni di euro (e ancora di più per OpenAI, perché più di 10 utenti utilizzano il sistema).

ChatGPT può rispondere a tutte le tipologie di domande e fornisce spesso risultati sorprendentemente buoni. Tuttavia, anche domande semplici possono non essere risposte correttamente. Così, ChatGPT non riesce ad individuare con esattezza il numero delle "r" nel parola Strawberry. Inoltre, ChatGPT si appoggia anche su falsi sapere memorizzato nel LLM. Non solo da ciò derivano Allucinazioni.

La dimensione di un modello linguistico è specificata in miliardi di parametri. Un miliardo è 1 B (B = miliardo). Un parametro è una connessione tra due neuroni della rete neurale.

Modelli linguistici molto piccoli, come ad esempio Llama3.2-1B, sono adatti per dispositivi mobili o in generale per velocità di risposta elevate. La qualità della risposta ne soffre tuttavia. Domande generali possono essere spesso risposte abbastanza bene. Quando la domanda viene posta in tedesco, la situazione cambia, cioè peggiora. La grammatica tedesca non viene valorizzata a sufficienza.

Modelli linguistici più piccoli come 7B o 8B dominano spesso la lingua tedesca. Possono riassumere testi, generare idee o tradurre testi. La velocità di esecuzione su un server AI standard è moderata.

Con l'aiuto di modelli ridotti, la velocità dell'inferenza può essere aumentata. La qualità ne soffre solo minimamente.

Sono i modelli di intelligenza artificiale che sono inseriti in un sistema di IA e che devono svolgere compiti specifici a essere i migliori. Un sistema di IA è una sorta di programma di riferimento che contiene, oltre al componente di IA, anche la logica convenzionale. Perché un modello linguistico dovrebbe contare il numero di lettere in una parola se un codice classico del programma può farlo molto più velocemente e meglio, cioè con 100% di affidabilità?

Un esempio di una specifica concreta è un Assistente AI per il reparto personale. Un candidato invia il suo curriculum vitae in risposta a un annuncio di lavoro al personale. Il personale vuole ora sapere se il curriculum del candidato si adatta bene alle richieste elencate nell'annuncio di lavoro (sperabilmente). L'assistente AI confronta ora il curriculum con l'annuncio di lavoro. Il sistema AI circostante si assicura che il curriculum e le abilità ivi menzionate vengano valutati da diverse prospettive: quali conoscenze richieste sono soddisfatte bene e quali no? Quali caratteristiche eccezionali ha il candidato in generale, che possono essere preziose per ogni azienda?

Inoltre vengono considerate le sfumature: un informatico non deve menzionare nel suo curriculum che conosce JSON. O lo sa già o impara in 5-45 minuti. Cose del genere ChatGPT non le può sapere. Ma la sezione tecnica lo sa e può istruire il sistema AI.

Un assistente AI potrebbe anche eseguire una ricerca online per il candidato e presentare i risultati al personale, ma questo non può essere fatto da un modello di AI. Un sistema di AI, come ChatGPT, non lo fa nemmeno per voi. In ogni caso, non lo farà per circa 22 euro al mese o per centesimi per richiesta. OpenAI non cercherà di esplorare l'intero internet perché non volete dare soldi a OpenAI o già pensate ai costi quando raggiungete i 50 euro.

Con l'aiuto del Sintonizzazione fine è possibile adattare i modelli linguistici a specifiche richieste di compito. I risultati sono spesso molto migliori di quelli che si potrebbero ottenere con ChatGPT o qualsiasi altra intelligenza universale. Modelli così finemente allenati possono inoltre essere molto piccoli. Quindi, la velocità di inferenza potrebbe essere estremamente alta.

Altri modelli oltre agli LLM

I modelli linguistici classici sono probabilmente i modelli di IA più diffusi. Ma ce ne sono molti altri.

Esempi sono i Modello di salvaguardia. Questi LLM sono solo per verificare le entrate di un utente o le uscite di un altro modello linguistico. La richiesta contiene una sollecitazione all'attività illegale? La risposta contiene istruzioni per la costruzione di bombe?

Per compiti di classificazione sono più adatti altri tipi di modello rispetto ai LLM. Si desidera, ad esempio, scoprire quale tipo di email qualcuno abbia inviato alla propria azienda. Era una richiesta? Era una lamentela? Era una lettera di dimissioni? O il mittente voleva solo che si facesse menzione del suo nome? Per questo si addestra un classificatore. È poco sforzo, ma porta enormemente molto.

Per supportare i dipendenti meno esperti si prestano invece macchine di ricerca vettoriale molto bene. Un cliente di un'agenzia di noleggio auto segnala un danno via email o app. L'addetto dell'agenzia di noleggio dovrebbe ora decidere come regolare il danno. L'assistente AI cerca casi comparabili del passato e presenta al dipendente raccomandazioni per l'azione più probabile da intraprendere. Tali dati storici sono in particolare a iosa disponibili presso le assicurazioni.

I modelli di immagine sono generalmente noti. Eseguono un buon servizio fino a un servizio molto buono. Ma si può fare meglio con i modelli di immagini addestrati in modo fine o Adattatore. Con questi è possibile produrre immagini secondo le vostre richieste (stile, atmosfera, colorazione, soggetto). Ecco un esempio:

Sarete sicuramente in grado di capire quale fosse il modello per questo tipo di immagine. Il numero di esempi per insegnare un adattatore di immagini può essere molto ridotto. Spesso sono sufficienti 8 o 15 esempi, a seconda della diffusione del materiale dell'immagine. Il numero di esempi può essere aumentato con un'aggiunta sintetica.

Per la trascrizione audio esistono ora dei modelli Whisper di ottima qualità. Essi forniscono risultati nettamente migliori rispetto allo standard Microsoft in Teams. Ciò almeno è emerso da un test condotto con una casa editrice specializzata in protezione dei dati. La trascrizione è stata confrontata con quella di Microsoft Teams e quella realizzata da Dr. GDPR grazie a un proprio sistema di intelligenza artificiale. Il sistema di intelligenza artificiale tiene conto di un lessico aziendale specifico, che comprende anche cognomi. Nessuno sa se Schmitt sia scritto con uno o due "t" oppure con "dt", figuriamoci una IA.

Esempi di modelli di IA e loro capacità

Verranno utilizzati alcuni esempi per dimostrare come le dimensioni del modello, la sua attualità e il tipo di dati immessi (testo, immagine, …) influiscano sulla qualità della risposta:

  • Llama3-7b: pessimo per gli standard odierni, ottimo quando è stato rilasciato; può funzionare bene sul proprio hardware
  • Llama3-1:8b: Molto buono per molti compiti; può funzionare bene sul proprio hardware
  • Llama3-70b: da buono a molto buono per molti compiti, ma in parte peggiore del più recente Llama3.1:8b; può essere utilizzato in modo ragionevole solo su hardware costoso
  • Llama3.1-70b: Molto buono per molti compiti; alcuni punti deboli per il tedesco; può essere eseguito correttamente solo su hardware costoso
  • Llama3.1-405b: ancora meglio di Llama3.1:70b, ma non necessariamente per il tedesco; può essere eseguito in modo ragionevole solo su hardware molto costoso
  • Llama3.2-3b: buono, ma peggiore di Llama3.1:8b, ma risposte più veloci

Oltre a questi LLM, esistono altri tipi di modelli. Ecco alcuni esempi:

  • Pixtral-12B: ottimo per interrogare le immagini. Requisiti hardware accettabili
  • Qwen2.5-72B: Molto buono per la generazione di codice di programma; può essere utilizzato in modo ragionevole solo su hardware costoso
  • FLUX.1-fast: risultati a volte molto buoni quando si generano immagini, ma spesso inadeguati quando si generano testi in tedesco nell'immagine; può essere utilizzato ragionevolmente anche su hardware più economico con degli accorgimenti

La qualità dei risultati varia quindi a seconda dell'attualità e delle dimensioni del modello. Il testo tende a richiedere un risultato preciso, tranne che per i compiti creativi. La situazione è spesso diversa per le immagini.

Conclusione

Definite il vostro caso d'uso. Se non avete idea di dove l'IA possa aiutarvi, allora non avete bisogno dell'IA. Utilizzate invece un motore di ricerca, come sempre.

Iniziate con un caso d'uso semplice. Se non siete sicuri di cosa possa essere semplice, chiedete consiglio.

Più piccolo è il modello di intelligenza artificiale, più specifico deve essere il caso d'uso. I modelli molto grandi, come quelli con 405B parametri, non dovrebbero essere gestiti direttamente dalla vostra azienda. Anche se le risorse fossero disponibili, di solito esistono opzioni migliori.

Un modello 70B come Llama3.1-70B è già abbastanza grande per l'auto-operazione. Questo per darvi un'idea generale. È meglio che i modelli non superino la metà di queste dimensioni.

Per i compiti che non richiedono risposte generative, esistono opzioni migliori dei modelli di intelligenza artificiale che "tutti" conoscono. Questi modelli sono ideali per trovare conoscenze nei documenti aziendali. Inoltre, i requisiti hardware sono così bassi che nessuno deve pensare ai prezzi di acquisto o di noleggio. La ricerca semantica, ovvero il confronto di testi o immagini (o audio o …), è un altro esempio di inizio sensato dell'era dell'IA.

Chi gestisce la propria AI, non si preoccupa molto di sicurezza dei dati. Molto poche preoccupazioni, se un server GPU viene noleggiato in Germania da un fornitore tedesco con DPA e nessuna preoccupazione, se un proprio server è presente nel data center o è stato noleggiato tramite Colocation.

La propria intelligenza artificiale significa: controllo totale dei dati. I dati non vanno da nessuna parte, se non si vuole. I dati non sono recuperati da nessuna parte, se non si vuole. Solo gli utenti possono accedere ai documenti tramite l'intelligenza artificiale per cui sono autorizzati. Ciò viene chiamato Offline-AI.

In conclusione: Il modello linguistico o un altro modello di IA più adatto al vostro caso d'uso deve essere valutato in base al caso d'uso specifico. Ogni settimana ci sono nuove innovazioni e modelli di IA. Vale quindi la pena di dare un'occhiata più da vicino.

Messaggi chiave di questo articolo

Il NullModel è il modello "migliore" nel benchmark, ma fornisce sempre la stessa risposta a tutte le domande, il che non è molto utile. Il modello linguistico migliore dipende dall'applicazione.

Per le domande semplici, sono più adatti i modelli linguistici più piccoli, come i modelli 7B o 8B, che spesso hanno una migliore padronanza della grammatica tedesca rispetto ai modelli più grandi.

Gli assistenti AI possono effettuare ricerche su casi storici per consigliare la migliore linea d'azione.

Iniziate con un'applicazione semplice, come la ricerca semantica nei documenti aziendali.

A proposito di queste affermazioni fondamentali
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

AI per agenzie fotografiche e creativi