Meta ha probabilmente rilasciato il suo modello di intelligenza artificiale LLaMA in versione 2, a causa della posizione dominante attuale di Microsoft/OpenAI e Google nel campo dell'intelligenza artificiale, e lo ha reso disponibile anche per l'uso commerciale. È possibile un funzionamento locale senza problemi con la protezione dei dati, i segreti commerciali o le informazioni sui dipendenti. Un test pratico.
Introduzione
Il modello di intelligenza artificiale della seconda generazione, reso pubblico da Meta il 18/07, è un modello linguistico (Large Language Model = LLM). Si presta all'analisi di testi. Pertanto può essere utilizzato per scopi come:
- Riassunto di testo (abstractive summary = riassunto abstrattivo = riassunto in parole proprie nuove).
- Estrazione di significati da documenti (esempio: Quali domande risponde il documento dato?).
- Motore di ricerca per documenti (vector search = Ricerca vettoriale).
- Rispondere a domande con documenti aziendali come base di conoscenza (risposta alle domande = sistema domanda-risposta).
- ChatBot (conversational = Konversationen).
Aggiornamento: Nuovi e più performanti modelli linguistici vengono utilizzati nell'Intelligenza Artificiale Offline con Dr. GDPR.
LLaMA è l'acronimo per Large Language Model Meta AI. Meta AI è una divisione del gruppo Meta, che si occupa di applicazioni di Intelligenza Artificiale. Dopo aver raccolto numerose informazioni sui utenti su Facebook, Instagram o WhatsApp, queste informazioni vengono ora utilizzate per l'addestramento dei modelli AI e dei modelli come LLaMA.
Il modello di linguaggio LLaMA 2 può essere utilizzato localmente e in modo data-friendly anche per applicazioni commerciali. Le esigenze hardware sono soddisfabili.
Vedi questo articolo e altro articolo.
Accanto ai modelli per il riconoscimento del linguaggio esistono altri modelli adatti a diverse tipologie di dati. Molte persone hanno già sentito parlare di StableDiffusion, un modello di intelligenza artificiale con cui si può generare un'immagine partendo da un testo (Dall-E, Midjourney ecc.).
Per le basi consiglio un mio precedente contributo sull'intelligenza artificiale:
- Basi per sistemi di intelligenza artificiale. ([1])
- Sistema di domande e risposte con intelligenza artificiale. ([1])
- La attuale intelligenza artificiale è una rivoluzione e non si basa essenzialmente sulla statistica. ([1]) ([2])
- Tipici casi di utilizzo, protezione dei dati, riservatezza, malintesi.
- Parametri di configurazione di un assistente vocale. ([1])
Le richieste di hardware per i modelli più piccoli sono soddisfacenti. La grandezza del modello viene determinata dal numero di parametri nel modello. I parametri sono connessioni neuronali. In modo molto approssimativo e semplificando, si potrebbe considerare il numero di neuroni nell'elaboratore cerebrale come parametro.
Nei modelli di AI i parametri vengono abbreviati in questo modo (esempi):
- 7B = 7 miliardi
- 13B = 13 miliardi
- 70B = 70 miliardi
Il "B" il viene da "billion", perché in inglese la milliarda non esiste. Una "billion" è quindi una milliarda. I modelli con ad esempio 200 milioni di parametri si chiamano poi 200M. Un bene, perché in tedesco ci sarebbe confusione tra il "M" per milione e lo stesso "M" per milliarda.
La numerosità dei parametri di un modello è un indicatore molto buono della sua comprensione linguistica. Quanto più alta questa cifra, tanto meglio "parla" o comprende questo modello una lingua. Ma quale lingua? La maggior parte dei modelli era fino a poco tempo fa solo basata sull'inglese. Tuttavia, c'era sempre un po' di effetto collaterale. Voglio dire: fortunatamente ci sono alcuni testi presenti in rete che sono eccezionalmente scritti in tedesco e non in inglese, cinese o spagnolo. Quindi, un modello di intelligenza artificiale con un numero sufficiente di parametri può anche "casualmente" comprendere il tedesco. Non era ironico, anche se sembra così.
La motosearch Bing con un modello di linguaggio GPT in background fornisce spesso risposte false.
La mia opinione. Vedi il post.
Sono determinanti per un modello il numero dei suoi parametri e anche la linguaggio di imprinting. Per grandi modelli non esiste ancora, a quanto mi risulta, uno che sia stato addestrato specificamente in tedesco. Potrebbe essere diverso la prossima settimana. Da ciò si può vedere molto bene, come lentamente lavorano alcune aziende, autorità o legislatori. Mentre questi pensano a tempi di anni o treenni, nel campo della IA quattro settimane sono un lungo periodo di tempo. Buon divertimento in futuro (che comincia subito), quando saremo tutti travolti da progressi tecnologici e problemi. Io mi proteggo meglio io stesso e non aspetto leggi o sentenze.
Anche la lunghezza di contesto è fondamentale per un modello di intelligenza artificiale. La lunghezza di contesto indica quanti blocchi di testo possono essere elaborati da un modello di IA. Per questo, il modello deve essere addestrato con blocchi di testo che hanno la stessa lunghezza di contesto. Quanto più grande è la lunghezza di contesto, tanto meglio, ma anche tanto più richiede potenza di calcolo. Ho letto su Meta che per l'addestramento sono state utilizzate numerose schede grafiche A100, ciascuna con 80 GB di VRAM (memoria video), anziché la memoria CPU. Più grande è la lunghezza di contesto, tanto più richiede potenza di calcolo. La durata dell'addestramento è stata di 3,3 milioni di ore di scheda grafica . Una scheda A100 costa molto e una singola scheda costava fino a poco tempo fa 15.000 euro. Una tale scheda può consumare fino a 400 W di energia.
Il modello LLaMA 2 ha una lunghezza di contesto di 4096 caratteri. È molto più lunga rispetto al predecessore, LLaMA in versione 1, che aveva probabilmente solo 2048 caratteri. La maggior parte dei modelli noti fino ad ora avevano solo 1024 caratteri. ChatGPT-4 ha una lunghezza di contesto di 8096 caratteri, ma è anche estremamente lenta, se si considera la superficie chat e il tempo di reazione. Nel frattempo esistono addirittura modelli con una lunghezza di contesto di 128.000 caratteri. Questi ultimi sono però dotati di pochi parametri.
Quanto è buona LLaMA 2 quindi?
Test pratico del modello LLaMA 2
Il mio test di pratica fornisce un'idea e la prima impressione, nient'altro. Come caso d'applicazione ho utilizzato la generazione di testo, che dovrebbe fornire una risposta alle domande basate sui contributi del Dr. GDPR. Tutte le domande le ho formulate in lingua tedesca.
Ho verificato i modelli LLaMA 2 con 7B e 13B parametri. Il modello da 70B supera attualmente la mia hardware disponibile. Posso permettermelo, ma perché dovrei farlo? Per provare già molto buoni modelli il mio server di IA è più che sufficiente. Ciò che uso sono modelli ridotti. Questi modelli hanno una qualità ancora molto buona con un bisogno di risorse nettamente inferiore. I modelli completi di LLaMA 2 sono quindi ancora un po' migliori. Come mostrano i miei test precedenti con i modelli Vicuna, la differenza è probabilmente piuttosto minima. Tuttavia non posso escludere che anche la lunghezza del contesto utilizzabile nei modelli ridotti sia più bassa.
I modelli linguistici addestrati come GPT o LLaMA sono adatti per formulare testi e risposte, ma non possono essere utilizzati direttamente come motore di ricerca e banca dati dei conoscenze.
Una motosearch per documenti propri, che possiede comprensione del testo, può essere creata sulla base di modelli linguistici addestrati.
Nella risposta del modello LLaMA era presente una versione di WordPress e contrassegnata come ultima versione disponibile. Se si tiene conto di ciò, il sapere derivato dal modello AI risale almeno all'inizio dell'anno 2022. Ma questo non è l'argomento in questione, poiché gli esempi d'applicazione sono soprattutto la analisi dei documenti aziendali e non la risposta a domande di conoscenza generale.
Modello 7B:
I miei primi test sono stati eseguiti con il modello 7B di LLaMA 2. I risultati erano mediocri secondo gli standard attuali. Sarebbe stato un fatto sorprendente l'anno scorso. La qualità è quindi già molto buona per un tale modello, sebbene le applicazioni siano limitate. Vedrei il modello 7B più come una ricerca di documenti o per un semplice assistente domande-risposte, al quale non si pongono domande complesse. Inoltre, secondo la mia stima, il modello 7B dovrebbe essere fine-trennato per poter inserire con discreta affidabilità conoscenze di esperti.
Modello 13B:
I miei test considerano la lunghezza di contesto di 4096 per le varianti del modello LLaMA2. Sembrerebbe che il modello si trovi in difficoltà a fornire risposte solo in tedesco, nonostante io abbia cercato di costringerlo a farlo. Ecco un esempio:
Domanda: Possono persone normali dare consigli legali a qualcuno?
Risposta: Yes, normal people can give legal advice.
The BGH has decided that contract documents, in particular contract drafts, can be created by software that uses a question-answer game. Also, data protection texts are even further out of the line.
Functioning of a contract generator:
A legal publishing house offers a software that creates contracts. Against this, a German bar association had something to say. The bar association what of the opinion that the contract drafting what only allowed to lawyers.
The Federal Court of Justice gave the opinion of the bar association a clear rejection. This goes out of the BGH decision of 09/09/2021, which had to decide on the legality of a contract document generator.
The infamous software asks the user about various aspects that are important for contract drafting. The user answers accordingly.
Then the software creates a contract draft on the basis
La domanda era stata formulata in modo deliberatamente superficiale. Quasi ogni persona scrive così nel proprio dispositivo finale. La risposta era in inglese, nonostante io avessi richiesto il tedesco (non rappresentato qui, ma comunicato al modello di intelligenza artificiale). La risposta era abbastanza lunga, ma tagliata. Ciò dipende dal fatto che anche le risposte hanno una lunghezza massima. Molti conoscono questo da ChatGPT. Il calcolo della risposta è durato qui 9,2 secondi. Le maggior parte delle risposte sono state date durante il mio test più velocemente o molto più velocemente. Dipende dalla domanda. Grazie al cosiddetto streaming la reattività può essere ridotta psicologicamente. Molti potrebbero ricordare ancora i menu di avvio di Windows, che apparivano in tre varianti diverse l'una dall'altra all'avvio di Windows e comunicavano ogni volta che Windows stava per essere disponibile.
Con un contesto di 4096 caratteri sono state trovate alcune risposte in lingua tedesca. Tuttavia, è decisivo anche il parametro e altri fattori. In una configurazione che si avvicina a quella che ho definita molto buona nei miei test precedenti con altri modelli di intelligenza artificiale, sono stati ottenuti i seguenti risultati:
Domanda: Quali diritti ho nel rispetto della privacy dei dati? Risposta: Non ho diritti. Ho i diritti che mi concede la GDPR. Ho i diritti che mi concede la GDPR e i diritti che non mi concede la GDPR.
La domanda era stata formulata intenzionalmente con la parola "dati personali" scritta in minuscolo. In effetti anche gli interroganti umani che digitano qualcosa in un campo di input sono generalmente poco meticolosi. La tolleranza per l'incertezza nella selezione dei documenti di origine era più bassa.
Dopo aver ridotto l'errore ammissibile, seguì una risposta a un'altra domanda:
Domanda: Chi è Klaus Meffert? Risposta: Klaus Meffert è un informatico che ha conseguito il dottorato in Informatica. È l'editore del blog denominato Dr. GDPR. Il blog è raggiungibile all'indirizzo internet dr-dsgvo.de. Egli risiede nello Stato federale dell'Hessen, dove la Commissione per la protezione dei dati non ha alcuna voglia di applicare sanzioni. Alcuni tribunali hessiani hanno inoltre scarsa o nessuna voglia di occuparsi delle controversie relative alla tutela della privacy a favore delle persone interessate.
Non so come l'indicazione alle autorità dell'Hessen sia finita nella mia IA, visto che già sono stati emessi molti amari per violazioni della protezione dei dati in Hessen. Nel web tracking erano zero. E Google Analytics non è poi così male, come mi ha detto personalmente e a una conferenza un dirigente del dipartimento dell'Hessen. La risposta IA si basa quindi sulle informazioni inserite, il che è molto buono. Non sono da identificare allucinazioni, il che è anche molto buono.
A volte si ottengono risultati divertenti. Ecco un esempio:
Domanda: Chi è il dottor Meffert? Risposta: Dr. Meffert è un avvocato fittizio, che nella tabella di traduzione della GDPR serve come riferimento per la traduzione del termine "avvocato".
Il mio tentativo di spiegazione per questa risposta AI è che nel mio blog esiste un dizionario del diritto alla protezione dei dati con traduzioni di termini tecnici da tedesco a inglese. Che io sia un avvocato fittizio potrebbe essere stato dedotto dalla AI dalla mia affinità per il contesto giuridico. Da questa intuizione, che la AI ha generato in questo caso, potrebbero sorgere nuove applicazioni. Si potrebbe così creare profili psicologici di persone sulla base dei loro lavori (testo, immagine, musica …).
In un altro contributo ho descritto la risposta della mia IA alla domanda: „È cattivo Klaus Meffert?“ . LLaMA 2 ha risposto con „Non trovata una buona risposta.“ Su questa risposta non si può fare nulla. Tuttavia, una risposta nel contributo appena menzionato era molto meglio. ([1])
Per una domanda ulteriore si è avuta la seguente risposta:
Domanda: È WordPress sicuro? Risposta: WordPress è sicuro se si prendono le dovute misure di sicurezza. Ciò significa che si deve aggiornare regolarmente l'installazione di WordPress, aggiornare regolarmente i plugin e i temi e cambiare regolarmente le password. Questo è il fondamento della sicurezza. Questo non è tutto. Ci sono altre misure di sicurezza che si possono prendere. Esempi sono: L'installazione di WordPress su un server non direttamente accessibile tramite internet.
La risposta è già molto buona, secondo me. Secondo il valore di confidenza calcolato, è stata data per un parte dal mio stesso patrimonio di conoscenze e per un'altra dalla banca dati delle conoscenze che è intrinseca al modello AI. Se non sapete cosa significa "intrinseco", non preoccupatevi. Sto usando questo termine qui solo perché in ogni caso nessuno sa esattamente come un modello AI estenda le sue conoscenze all'esterno. È lo stesso per gli esseri umani. Non so proprio perché ieri avevo dato una risposta diversa alla stessa domanda che mi è stata riproposta oggi. Non era nemmeno ironica, anche se l'esempio era inventato.
I risultati citati precedentemente si basavano su una configurazione che identificava i due migliori documenti di origine come base per la risposta alla domanda posta dall'uomo. Il processo è a più fasi, perché un documento contiene solitamente più di 4096 caratteri. I documenti vengono quindi scomposti e poi inseriti nella AI.
Come si presenta il risultato utilizzando tre documenti di base? I risultati sembrano essere qui molto migliori. Ecco un esempio su una domanda estremamente difficile:
Domanda: È possibile determinare la posizione di un server tramite l'indirizzo IP? Risposta: No, questo non è possibile con affidabilità. L'indirizzo IP può essere utilizzato per qualsiasi server. Il luogo del server non può essere determinato con affidabilità dall'indirizzo IP. La correlazione di un indirizzo IP a un server può cambiare in qualsiasi momento. Il luogo di un server può essere determinato con affidabilità solo verificando l'accordo contrattuale con il gestore del server.
La risposta viene quasi completamente dalle mie articoli di blog. È corretta e è stata verificata dal mio sistema AI. Al contrario, la sofisticata intelligenza artificiale di Microsoft in Bing può solo rispondere male a questa domanda. Bing dà la risposta "Sì" e cita documenti di riferimento con un estratto che giustifica questa risposta falsa. Bing dice quindi che tramite l'indirizzo IP si possa determinare il luogo di un server e non lo limita affatto.
Anche Copilot ha estreme debolezze, come un test illustra. Persino compiti apparentemente semplici della vita quotidiana la AI di Microsoft non riesce a rispondere in modo ordinato.
Alternative
Ogni settimana escono nuovi modelli linguistici che superano quelli precedenti. Ad esempio Tartaruga2 è un modello che, secondo i miei test, può ottenere risultati migliori di LLaMa 2.
Inoltre esistono varianti di LLaMa che hanno una lunghezza del contesto molto più grande. Una lunghezza del contesto grande consente di inserire grandi documenti o testi estesi in un'unica volta nella AI, eliminando la necessità di suddividerli in piccoli bocconi. Un esempio di modello di questo tipo è Yarn-Llama-2. Se si formano dei bocconi, c'è sempre il rischio che le informazioni vengano alterate o perse. Una lunghezza del contesto grande risolve questi problemi.
Le varianti di LLaMa 2 addestrati con cura spesso forniscono risultati migliori in test come ARC o TruthfulQA. Tuttavia, per il caso d'uso specifico deve essere verificato se un modello è davvero migliore rispetto a un altro. La maggior parte degli utilizzi in Germania dovrebbe avere Deutsch come lingua principale. In questo senso non porta molto se un modello che è stato addestrato principalmente su testi inglesi o giochi domanda-risposta fornisce risultati eccezionali.
Una dimostrazione di ciò che è possibile con piena controllo dei dati, mostra la Intelligenza Artificiale Offline su Dr. GDPR.
Conclusione
Alcune altre domande e risposte sono state lasciate fuori da qui. Non di rado il modello LLaMA 2 -AInon ha fornito alcuna risposta, il che è meglio di una risposta falsa. In ogni caso possono essere emesse le fonti documentali che forniscono la risposta più probabile alla domanda.
Al momento non vedo un vantaggio di LLaMA 2 rispetto ad altri modelli per quanto riguarda testi o dialoghi in tedesco. Tuttavia, la lunghezza del contesto è già un argomento che giustifica una maggiore considerazione del modello. Come si comporterà il modello di intelligenza artificiale pubblicato da Meta dopo Fine-Tuning, è una questione diversa. Tuttavia, qui probabilmente non accadranno molte novità o risultati analoghi rispetto ad altri modelli (se non fosse per la lunghezza del contesto che può elaborare risposte più lunghe).
Messaggi chiave
Meta ha rilasciato un nuovo modello di intelligenza artificiale chiamato LLaMA 2, che può essere usato per compiti come la sintesi di testi, la ricerca di informazioni e la creazione di chatbot.
La capacità di un modello linguistico di comprendere il testo dipende dal numero di parametri e dalla lunghezza di contesto. Più parametri e lunghezza di contesto, meglio il modello comprende il testo.
LLaMA 2 è un modello linguistico potente, ma i modelli più piccoli (7B e 13B parametri) hanno prestazioni mediocri per domande complesse e potrebbero aver bisogno di essere ulteriormente addestrati per fornire risposte accurate in italiano.
Un tribunale tedesco ha stabilito che software per la creazione di contratti è legale, anche se può essere utilizzato da persone che non sono avvocati.
L'intelligenza artificiale può fornire risposte accurate basandosi sulle informazioni a cui è stata addestrata, ma a volte può anche generare risposte divertenti e imprevedibili.
LLaMA 2 non è il modello linguistico migliore per testi e dialoghi in tedesco.
Il modello di Meta potrebbe non essere molto diverso dagli altri, a meno che non si consideri la sua capacità di elaborare risposte più lunghe grazie alla maggiore lunghezza del contesto.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
