Qu'est-ce que LLaMA 2 et à quoi ça sert ?

LLaMA 2 est un grand modèle de langage (LLM) de Meta, qui peut être utilisé pour des tâches telles que le résumé de texte, l'analyse de documents et la réponse aux questions. Il est également conçu pour un usage commercial.

Quels aspects techniques sont importants pour LLaMA 2?

LLaMA 2 se distingue par un grand nombre de paramètres, ce qui améliore la compréhension du langage du modèle. Il est également important de prendre en compte la longueur du contexte, qui détermine la quantité de texte que le modèle peut traiter simultanément, ainsi que les exigences matérielles qui sont satisfaites grâce à l'utilisation de cartes graphiques A100.

Quels problèmes y avait-il avec la synthèse vocale allemande du modèle LLaMA 2?

Le modèle avait du mal à générer des réponses en allemand avec une longueur de contexte de 4096, bien que cela ait été explicitement demandé. Il y avait des cas où les réponses étaient en anglais, même lorsque l'allemand avait été demandé.

Combien de temps a mis le modèle LLaMA 2 pour générer la réponse?

La génération de réponses du modèle a pris entre 9,2 secondes et instantanément, selon la question. Le streaming a été utilisé pour réduire le temps de réponse, ce qui a influencé la perception des délais.

Est-ce que WordPress est sécurisé ?

WordPress est sécurisé si l'on s'en occupe. Cela comprend les mises à jour régulières de WordPress, des plugins et des thèmes, ainsi que le changement des mots de passe.

Peut-on déterminer l'emplacement d'un serveur à partir de son adresse IP ?

Non, l'adresse IP n'est pas fiable pour déterminer l'emplacement d'un serveur. L'attribution peut changer à tout moment et ne doit être vérifiée que par le biais d'accords contractuels avec l'opérateur de serveur.

Quelles sont les principales caractéristiques du modèle LLaMA 2 ?

LLaMA 2 est un modèle d'IA publié par Meta, qui peut être utilisé pour l'analyse de texte et des tâches telles que la synthèse ou la réponse aux questions. Il se distingue par une longueur de contexte plus importante, qui permet des réponses plus longues.

Offre-t-LLaMA 2 un avantage pour les textes en allemand ?

Actuellement, LLaMA 2 ne présente pas d'avantage clair par rapport aux autres modèles pour les textes ou les dialogues en allemand. Il est important de noter que le modèle doit être entraîné dans la langue souhaitée pour obtenir des résultats optimaux.

Intelligence artificielle: test pratique du nouveau modèle de langage LLaMA de Meta

Meta a probablement libéré son modèle de langage avancé LLaMA en version 2, en raison de la domination actuelle de Microsoft/OpenAI et Google dans le domaine du traitement de l'intelligence artificielle, et ce même pour une utilisation commerciale. Un fonctionnement local sans problème avec les données de protection des données, les secrets commerciaux ou les données des employés est possible. Une mise en pratique.

Introduction

Le modèle de langage artificielle de deuxième génération, rendu public par Meta le 18.07, est un modèle de langage (Large Language Model = LLM). Il convient pour l'analyse de texte. Ainsi, il peut être utilisé entre autres pour les cas d'utilisation suivants:

Résumé du texte (abstractive summary = résumé abstrait = résumé en propres/propres mots).
Extraire des significations à partir de documents (Exemple: Quelles questions répond le document donné ?).
Moteur de recherche pour des documents (vector search = Recherche vectorielle).
Répondre à des questions avec des documents d'entreprise comme base de connaissance (question-answering = système question-réponse).
ChatBot (conversational = Konversationen).

Mise à jour: Des modèles de langage plus récents et performants sont utilisés dans l'intelligence artificielle hors ligne avec Dr. RGPD.

LLaMA est l'abréviation de Large Language Model Meta AI. Meta AI est une division du groupe Meta, qui s'occupe des applications d'intelligence artificielle. Après que Meta ait collecté un grand nombre de données sur les utilisateurs sur Facebook, Instagram ou WhatsApp, ces données sont maintenant utilisées pour l'apprentissage et le modèle AI comme LLaMA.

Le modèle de langage LLaMA 2 peut être exécuté localement et de manière économique même pour des applications commerciales. Les exigences en matériels sont remplies.
Voir cet article ainsi que autre article.

Outre les modèles pour la compréhension de langage, il existe des modèles adaptés à d'autres types de données. Beaucoup ont déjà entendu parler de StableDiffusion, un modèle de IA qui permet de générer une image à partir d'un prompt texte (Dall-E, Midjourney etc.).

Pour les bases, je recommande un de mes anciens articles sur l'intelligence artificielle:

Les fondements des systèmes d'intelligence artificielle. ([1])
Système de questions-réponses avec IA. ([1])
L'intelligence artificielle actuelle est une révolution et elle ne repose pas en substance sur la statistique. ([1]) ([2])
Exemples d'application typiques, protection des données, confidentialité, malentendus. ([1])
Paramètres de configuration d'un assistant vocal. ([1])

Les exigences en matériels pour les modèles plus petits sont réalisables. La taille du modèle est déterminée par le nombre de paramètres dans le modèle. Les paramètres sont des connexions neuronales. On pourrait grossièrement et simplifier considérer comme paramètre le nombre de neurones dans le cerveau électronique.

Dans les modèles de AI, les paramètres sont abrégés comme suit (exemples):

7 milliards = 7 B
13 milliards = 13 B
Soixante-dix milliards = 70 milliards

Le «B» vient de «billion», car en anglais la milliard ne existe pas. Une «billion» est donc une milliard. Les modèles avec par exemple 200 millions de paramètres s'appellent alors 200M. Heureusement, car en allemand nous serions confus entre le «M» pour million et le même «M» pour milliard.

La nombre de paramètres d'un modèle est un très bon indicateur de sa compréhension linguistique. Plus il est élevé, mieux «parle» ou comprend ce modèle une langue. Mais quelle langue ? La plupart des modèles étaient jusqu'à récemment uniquement axés sur l'anglais. Cependant, il y avait toujours un peu de détournement. Voulez-vous dire: heureusement, certains textes sur Internet sont exceptionnellement écrits en allemand et non en anglais, chinois ou espagnol. Ainsi, un modèle d'intelligence artificielle avec un nombre suffisamment élevé de paramètres peut par inadvertance comprendre l'allemand. C'était pas ironique, même si cela a l'air comme ça.

La moteur de recherche Bing avec un modèle de langage GPT en arrière-plan fournit souvent des réponses fausses.
Mon avis, voir l'article.

L'importance d'un modèle est donc son nombre de paramètres et aussi la langue de marquage. Il n'y a pas encore, pour les grands modèles, un qui ait été spécialement entraîné sur l'allemand. Cela peut être différent la semaine prochaine. On voit très bien, à quel rythme certaines entreprises, administrations ou législateurs travaillent. Alors que ceux-ci pensent en années ou en trois ans, quatre semaines sont un long délai dans le domaine de l'intelligence artificielle. Bon amusement à l'avenir (qui commence tout de suite), lorsque nous serons tous submergés par les progrès technologiques et les problèmes qui s'y attachent. Je me protège donc moi-même avec précaution et attends pas des lois ou des jugements.

L'autre élément crucial pour un modèle de IA est appelé longueur de contexte. La longueur de contexte indique la taille des blocs de texte que le modèle de IA peut traiter. Pour cela, on doit former le modèle avec des blocs de texte qui ont une longueur de contexte. Plus grande, mieux c'est, mais aussi plus coûteuse en calcul. J'ai lu à Meta qu'il a fallu utiliser un grand nombre de cartes graphiques A100, chacune avec 80 Go de VRAM (mémoire vidéo), pour former le modèle. Le temps de calcul était de 3,3 millions d'heures de cartes graphiques. Une carte A100 est très chère. Un seul coûtait jusqu'à récemment 15 000 euros. Une telle carte peut consommer jusqu'à 400 watts en puissance.

Le modèle LLaMA 2 a une longueur de contexte de 4096 caractères. C'est beaucoup plus que le modèle précédent, LLaMA en version 1, qui avait probablement 2048 caractères. La plupart des modèles que je connais avaient jusqu'à présent seulement 1024 caractères. ChatGPT-4 a une longueur de contexte de 8096 caractères, mais il est également extrêmement lent, en regardant l'interface chat et le temps de réaction. Il existe désormais même des modèles avec une longueur de contexte de 128 000 caractères. Ceux-ci sont actuellement équipés de peu de paramètres.

Comment est LLaMA 2 donc ?

Test pratique du modèle LLaMA 2

Mon test pratique donne un aperçu et une première impression, rien de plus. En tant qu'application, j'ai utilisé la génération de texte, qui doit fournir une réponse à partir des contributions de Dr. RGPD en fonction d'une question. J'ai posé toutes les questions en langue allemande.

J'ai vérifié les modèles LLaMA 2 avec 7B et 13B de paramètres. Le modèle à 70B dépasse actuellement la capacité de ma machine. Je pourrais m'offrir ce luxe, mais pourquoi le faire ? Pour tester des modèles déjà très bons, mon serveur AI est tout à fait suffisant. J'utilise des modèles réduits. Ces derniers ont une qualité encore très bonne avec un besoin de ressources nettement inférieur. Les modèles complets de LLaMA 2 sont donc encore un peu meilleurs. Comme mes tests précédents avec les modèles Vicuna le montrent, la différence est probablement plutôt minime. Cependant, je ne peux pas exclure que la longueur de contexte utilisable soit plus faible chez les modèles réduits.

Les modèles de langage entraînés comme GPT ou LLaMA sont bien adaptés à la formulation de textes et de réponses, mais pas directement utilisables en tant que moteur de recherche et base de données des connaissances.
Une moteur de recherche pour ses propres documents, doté d'intelligence linguistique, peut cependant être créé sur la base de modèles linguistiques entraînés.

Lorsqu'une réponse du modèle LLaMA contenait une version de WordPress et était étiquetée comme la dernière version de WordPress, on peut en déduire que les connaissances provenaient d'au moins début 2022. Mais ce n'est pas là le problème, car il s'agit principalement des cas d'utilisation qui consistent à analyser des documents d'entreprise et non à répondre à des questions générales de connaissance.

Modèle 7B:

Mes premiers tests ont eu lieu avec le modèle 7B de LLaMA 2. Les résultats étaient moyens en fonction des normes actuelles. Je serais encore surpris si c'était arrivé il y a un an. La qualité est donc déjà très bonne pour un tel modèle, même si les cas d'application sont limités. J'imagine le modèle 7B plutôt pour la recherche de documents ou pour un assistant question-réponse simple, sans poser de questions complexes. De plus, selon mon estimation, il faudrait fine-tuner le modèle 7B pour pouvoir transmettre avec une certaine fiabilité des connaissances d'experts.

Le modèle 13B-:

Mes tests prennent en compte la longueur de contexte élevée de 4096 pour les variantes du modèle LLaMA2. Apparemment, le modèle a du mal à donner des réponses uniquement en allemand avec une telle longueur de contexte, même si j'ai essayé de forcer cela. Voici un exemple:

Question: Les personnes normales peuvent-elles donner des conseils juridiques à quelqu'un ?
Réponse: Yes, normal people can give legal advice.
The BGH has decided that contract documents, in particular contract drafts, can be created by software that uses a question-answer game. Also, data protection texts are even further out of the line.
Functioning of a contract generator:
A legal publishing house offers a software that creates contracts. Against this, a German bar association had something to say. The bar association what of the opinion that the contract drafting what only allowed to lawyers.
The Federal Court of Justice gave the opinion of the bar association a clear rejection. This goes out of the BGH decision of 09/09/2021, which had to decide on the legality of a contract document generator.
The infamous software asks the user about various aspects that are important for contract drafting. The user answers accordingly.
Then the software creates a contract draft on the basis

La question était intentionnellement formulée de manière un peu légère. Presque tout le monde écrit ainsi dans son appareil ou sur son appareil. La réponse était en anglais, bien que je l'aie demandé en allemand (ce qui n'est pas représenté ici, mais a été communiqué au modèle AI). La réponse était assez longue, mais tronquée. Cela se passe parce que même les réponses ont une longueur maximale. Beaucoup connaissent cela de ChatGPT. Le calcul de la réponse a duré 9,2 secondes ici. La plupart des réponses ont été données plus rapidement ou beaucoup plus rapidement dans mon test. Il s'agit simplement de la question posée. Grâce au streaming, le temps de réaction peut être psychologiquement réduit. Beaucoup connaissent peut-être encore les écrans d'accueil Windows d'autrefois, qui apparaissaient en trois variantes consécutives lorsqu'un seul démarrage de Windows était effectué et qui indiquaient à chaque fois que Windows était en train de démarrer et qu'il serait bientôt disponible.

Avec une longueur de contexte de 4096, il y avait toutefois quelques réponses en allemand. Ce qui est décisif, outre ce paramètre, c'est d'autres choses. En tout cas, dans une configuration qui se rapproche de celle que j'ai considérée comme très bonne à la suite de mes tests précédents avec d'autres modèles de IA, le résultat suivant a été obtenu:

Question: Quels droits ai-je en matière de protection des données ?
Réponse: Je n'ai aucun droit.
J'ai les droits que m'accorde la RGPD.
J'ai les droits que m'accorde la RGPD et les droits que la RGPD ne me accorde pas.

La question était intentionnellement posée avec un mot petit écrit "protection des données". En fin de compte, les poseurs d'interrogations humains qui tapotent quelque chose dans un champ de saisie sont généralement peu soigneux. L'imprécision autorisée pour la sélection des documents source était plutôt en bas.

Après avoir réduit la marge d'erreur autorisée, on a reçu la réponse suivante à une autre question:

Question: Qui est Klaus Meffert ?
Réponse: Klaus Meffert est un informaticien qui a obtenu son doctorat en informatique. Il est l'éditeur du blog intitulé Dr. RGPD. Le blog est accessible à l'adresse internet dr-dsgvo.de. Il réside dans le land de Hesse, où la commission de protection des données n'a pas envie d'appliquer des amendes. Certains tribunaux hessois ont également peu ou pas envie de s'occuper des plaintes en matière de protection des données au sens des personnes concernées.

Je n'ai aucune idée de comment l'indication des autorités hessoises a pu se retrouver dans ma AI, alors que tant d'amendes ont été prononcées en Hesse pour violation du secret des données. En tout cas, le tracking web était à zéro. Et Google Analytics n'est pas si terrible, comme me l'a dit un responsable de la section des autorités hessoises lors d'une conférence. La réponse AI repose donc sur les connaissances renseignées, ce qui est très bien. Il ne s'agit pas ici d'hallucinations, ce qui est également très bien.

Parfois, des résultats amusants se produisent. Voici un exemple:

Question: Qui est Dr. Meffert ?
Réponse: Dr. Meffert est un avocat fictif qui dans la table de traduction de la RGPD sert de référence pour la traduction du mot "avocat".

Mon explication pour cette réponse AI est que dans mon blog existe un dictionnaire de protection des données avec traductions de termes techniques du allemand en anglais. Que je sois un avocat fictif, la AI pourrait l'avoir déduit de ma sympathie pour le contexte juridique. À partir de cette intuition générée par la AI, de nouveaux cas d'application pourraient surgir. On pourrait ainsi profils psychologiques de personnes générer en fonction de leurs œuvres (textes, images, musiques…).

Dans un autre article , j'ai décrit la réponse de ma AI à la question: „Est-ce que Klaus Meffert est méchant ?“ . LLaMA 2 a répondu avec „Pas de bonne réponse trouvée.“ On ne peut pas se plaindre de cette réponse. Cependant, une réponse dans l'article mentionné précédemment était nettement meilleure.

Pour une autre question, le résultat suivant a été obtenu:

Question: Est-ce que WordPress est sûr ?
Réponse: WordPress est sûr, si on s'occupe de la sécurité.
Cela signifie que l'on a mis à jour régulièrement l'installation de WordPress, les plugins et les thèmes ainsi que les mots de passe.
C'est la base de la sécurité.
C'est toutefois pas tout.
Il y a encore d'autres mesures de sécurité que l'on peut prendre.
C'est par exemple:
L'installation de WordPress sur un serveur qui n'est pas directement accessible via l'internet.

La réponse est déjà très bonne, je trouve. Selon le taux de confiance calculé, elle a été donnée en partie à partir de mon propre fonds de connaissances et en partie à partir de la base de données des connaissances inhérente au modèle AI. Si vous ne savez pas ce que signifie "inhérent", cela n'est pas grave. J'utilise ce terme ici uniquement parce que personne ne sait très bien comment un modèle AI extrait ses connaissances à l'extérieur. C'est la même chose pour les humains. Je n'ai aucune idée de pourquoi j'avais donné une réponse différente hier à la même question qui m'a été posée aujourd'hui. Ce n'était même pas ironique, bien que l'exemple ait été inventé.

Les résultats mentionnés précédemment sont basés sur une configuration qui identifie les deux meilleurs documents sources comme base pour répondre à la question posée par l'homme. Le processus est multistade, car un document possède généralement plus de 4096 caractères. Les documents sont donc d'abord décomposés puis introduits dans l'intelligence artificielle.

Quels sont les résultats obtenus en utilisant trois documents sources comme base ? Les résultats semblent ici être nettement meilleurs. Voici un exemple sur une question très difficile:

Question: Peut-on déterminer l'emplacement d'un serveur en fonction de son adresse IP ?
Réponse: Non, c'est pas possible avec certitude. L'adresse IP peut être utilisée pour n'importe quel serveur. Le lieu du serveur ne peut pas être déterminé avec certitude à partir de l'adresse IP. La mise en relation d'une adresse IP avec un serveur peut changer à tout moment. Le lieu d'un serveur ne peut être déterminé avec certitude qu'en vérifiant la convention contractuelle avec le propriétaire du serveur.

La réponse vient presque entièrement de mes articles de blog. Elle est correcte et a été vérifiée par mon système AI. D'un autre côté, la haute intelligence artificielle de Microsoft dans Bing répond incorrectement à cette question. Bing donne la réponse «Oui» et cite des documents source avec un extrait qui justifie cette mauvaise réponse. Bing dit donc que l'on peut déterminer l'emplacement d'un serveur en fonction de son adresse IP, sans aucune restriction.

Même Copilot a des faiblesses extrêmes, comme un test l'illustre. Même les tâches quotidiennes apparemment simples ne peuvent pas être répondues correctement par l'intelligence artificielle de Microsoft.

Alternatives

Chaque semaine, de nouveaux modèles linguistiques sont proposés, qui dépassent les précédents. Ainsi, par exemple, Platypus2 est un modèle capable d'obtenir des résultats meilleurs que ceux de LLaMa 2 selon mes tests.

Il existe également des variantes de LLaMa qui disposent d'une longueur de contexte beaucoup plus importante. Une grande longueur de contexte permet d'introduire de grands documents ou des textes étendus dans l'IA en une seule fois, sans avoir à les diviser en petits morceaux comme il le faudrait habituellement. Un exemple de modèle de ce type est Yarn-Llama-2. Lorsque les morceaux sont formés, il y a toujours le risque que des informations soient déformées ou perdues. Une grande longueur de contexte résout ces problèmes.

Les variantes de LLaMa 2 entraînées avec soin fournissent souvent des résultats meilleurs dans les épreuves pertinentes comme ARC ou TruthfulQA. Cependant, il faut vérifier pour chaque cas d'utilisation spécifique si un modèle est vraiment meilleur qu'un autre. La plupart des cas d'application en Allemagne devraient avoir l'allemand comme langue maternelle. Dans la mesure du possible, cela ne rapporte pas grand-chose si un modèle qui a été principalement entraîné sur des textes ou des jeux de questions-réponses en anglais fournit d'excellents résultats.

Une démonstration de ce à quoi on peut parvenir avec une pleine maîtrise des données est donnée par la AI hors ligne sur Dr. RGPD.

Résumé

Certains autres couples question-réponse ont été laissés de côté ici. Il n'est pas rare que le modèle LLaMA 2-AIne donne aucune réponse, ce qui est mieux qu'une réponse fausse. Au moins, les documents source peuvent être fournis pour chaque question, qui sont les plus susceptibles de fournir une réponse à la question.

Actuellement, je ne vois pas l'avantage de LLaMA 2 par rapport à d'autres modèles pour les textes ou dialogues allemands. Cependant, la longueur du contexte est déjà un argument qui justifie une étude plus approfondie du modèle. Comment le modèle de AI publié par Meta se comportera après Fine-Tuning, c'est une autre question. Probablement peu d'excitement se produira ou des résultats analogues à ceux d'autres modèles seront obtenus (n'eût été la longueur du contexte qui permet de traiter mieux les réponses plus longues).