DeepSeek: La révolution de l'IA chinoise aussi en version sécurisée

DeepSeek est d'une part peu sûr (l'app cloud) et d'autre part très sûr (le modèle open-source). Dans ce document focus sur DeepSeek, issu du groupe d'experts en IA de l'IT Klub Mainz & Rheinhessen, nous reprenons les tenants et aboutissants de DeepSeek, de l'app et des différents modèles DeepSeek. En préambule: chaque entreprise peut obtenir davantage avec l'IA open source qu'avec ChatGPT.

Qu'est-ce que DeepSeek ?

Avec «DeepSeek», on fait principalement référence au modèle de langage exceptionnel appelé R1, publié par une entreprise chinoise du même nom. Les modèles de langage basés sur l'intelligence artificielle sont également appelés LLMs, ce qui signifie «Large Language Model».

Ce qui est possible avec un modèle open-source de DeepSeek est en principe aussi possible avec les modèles open-source performants d'autres fournisseurs (y compris européens) .

Avec R1, DeepSeek a réussi à créer un modèle de langage qui est aussi performant que "ChatGPT". DeepSeek a fait sensation, car leur application a brisé tous les records en raison de la qualité de R1 et a ainsi attiré l'attention maximale.

Qu'est-ce qui rend DeepSeek si spécial ?

En raison de nombreuses qualités exceptionnelles, DeepSeek a bouleversé le marché de l'intelligence artificielle. L'application DeepSeek est devenue en très peu de temps l'application la plus téléchargée. Quelques-unes des raisons du succès:

Facteur d'intelligence élevé

Les modèles DeepSeek peuvent avoir un très grand nombre de neurones, alors qu'ils n'en ont besoin que d'une fraction par tâche. DeepSeek a également inventé des méthodes d'entraînement sophistiquées.

Une formation et des réponses plus efficaces

En activant de manière sélective les experts, le coût de calcul est considérablement réduit par rapport à des modèles dont la toile neuronale est toujours complètement active.

Coûts réduits

Grâce à l'architecture de modèle sélective, les coûts d'utilisation sont nettement inférieurs à ceux des modèles comme ChatGPT de OpenAI.

Ouvert à la source & sécurisé

Chacun peut devenir "OpenAI": les modèles DeepSeek sont disponibles gratuitement et peuvent être exécutés localement. La version locale ne nécessite aucun transfert de données. Le graphique suivant illustre cela:

L'image montre le principe de base d'un modèle open source. Il peut être facilement téléchargé sous forme de fichier et n'envoie aucune donnée nulle part. L'image a été créée avec le soutien de l'IA. (l'image a été traduite automatiquement).

Un simple téléchargement de fichier permet d'implanter des modèles d'IA open source dans des systèmes d'IA. Le modèle n'envoie aucune donnée nulle part. Par analogie, imaginez un fichier texte qui ne peut communiquer avec rien ni personne.

La recette du succès publiée

Pour couronner le tout, DeepSeek a révélé comment chacun peut créer lui-même un modèle d'IA capable de concurrencer ChatGPT.

Que signifie "DeepSeek" ?

Le terme "DeepSeek" est souvent utilisé comme synonyme de différents termes qui ont des significations différentes:

Term	Meaning	Properties
DeepSeek	Chinese company	“AI recipe” given away, startup?, strokes of genius
DeepSeek R1	Powerful language model	Open source, highly powerful, best data security
DeepSeek App	Application for smartphones	No data security, vaporized the stock market, based on R1
Student models	Smart LLMs with compact size	Open source, best data security, R1 was the teacher

DeepSeek est-il sûr ?

Application pour smartphones (variante cloud)

L'application DeepSeek est considérée comme très peu sûre. Elle ne devrait généralement pas être utilisée, même à des fins purement privées.

Open-Source Varianten

Les modèles open-source de DeepSeek, y compris les modèles de distillats pratiques, peuvent être téléchargés et utilisés de manière complètement locale/autonome sur son propre matériel. Ils offrent ainsi une sécurité totale des données. Tout transfert de données à des tiers est exclu. Ainsi, les modèles d'IA de DeepSeek dans leur version open source sont plus sûrs que les solutions cloud comme celles d'OpenAI ou de Microsoft.

Connaissances stockées

Dans chaque modèle d'IA, une énorme quantité de connaissances sur le monde est stockée via les données d'entraînement. DeepSeek, en tant qu'entreprise chinoise, a déformé certains faits pour des motifs politiques et les a enregistrés de manière douteuse dans le modèle phare R1 proposé. Entre-temps, il existe des modèles qui ont corrigé cela.

Dans les applications d'IA qui interrogent les connaissances de l'entreprise, les procédures largement répandues comme RAG privilégient en principe les connaissances de l'entreprise et suppriment l'impératif chinois en le rendant inoffensif.

What bedeutet „Mixture of Experts“?

Mixture of Experts" (MoE) est une architecture de réseaux neuronaux dans laquelle plusieurs sous-réseaux spécialisés (les "experts") coexistent, tandis qu'un mécanisme de routage (le "gatekeeper") décide quels experts doivent être activés pour la tâche en cours.

L'approche Transformer

Transformer est une approche IA très répandue pour les modèles "intelligents". Dans les modèles Transformer traditionnels, tous les paramètres du modèle sont utilisés pour chaque interrogation. Les modèles MoE, en revanche, divisent leurs capacités en plusieurs sous-réseaux spécialisés, chacun étant optimisé pour des types d'entrées ou de tâches spécifiques.

Une architecture optimisée

Lorsqu'un modèle MoE reçoit une entrée, il utilise d'abord un routeur (également appelé "Gating Network"). Le routeur décide lequel des experts disponibles est le plus approprié pour cette tâche spécifique. Typiquement, seuls un ou deux experts par jeton sont activés, les autres restant inactifs.

Autres modèles MoE

DeepSeek n'a pas inventé l'approche MoE (mais a été à l'origine d'autres innovations). Par exemple, la société française Mistral a déjà fourni un modèle avec cette architecture fin 2023.

Comment DeepSeek R1 est-il structuré ?

Les modèles DeepSeek traitent les entrées en activant seulement quelques parties du cerveau électronique en fonction de la question posée – les fameux experts.

Représentation schématique d'une architecture Mixture-of-Experts. Le routeur attribue les entrées
aux experts correspondants. Le diagramme a été généré avec l'aide de l'IA. (l'image a été traduite automatiquement).

Cette architecture offre plusieurs avantages essentiels par rapport aux modèles traditionnels à structure dense et explique pourquoi les modèles MoE tels que DeepSeek-MoE peuvent être très performants avec un effort de calcul relativement faible. Le principe est comparable à celui du cerveau humain: lorsque l'on parle, c'est principalement le centre du langage qui est sollicité, et d'autres parties sont peu ou pas actives.

Principaux composants d'un modèle MoE

Les modèles MoE comme DeepSeek R1 utilisent les innovations suivantes:

Réseau de routeur: Détermine les experts en IA qui seront activés pour quel partie de l'entrée (token).
Réseaux d'experts: Des réseaux de neurones spécialisés qui sont chacun entraînés pour des tâches spécifiques.
Poids d'experts: Les poids calculés par le routeur qui déterminent l'importance de chaque expert dans le résultat final.
Somme pondérée: Combinez les dépenses des différents experts en fonction des poids attribués par le routeur.

En résumé

Les modèles d'IA open source s'améliorent et deviennent de plus en plus efficaces.
Des modèles comme DeepSeek R1 peuvent être exploités par les utilisateurs eux-mêmes sur un matériel abordable.
Les implémentations locales améliorent la qualité des résultats et permettent de réduire les coûts en cas d'utilisation intensive.
L'application DeepSeek (cloud) ne doit en aucun cas être utilisée.
Les instructions pour la création de "ChatGPT 2.0" sont disponibles publiquement et librement utilisables par tous.
Les modèles open-source créent une indépendance vis-à-vis des services cloud et des apps de tiers.

À propos du groupe d'experts en IA de l'IT Klub

L'IT Klub peut justifier d'un concentré de compétences informatiques. Le groupe d'experts en IA apporte son soutien en proposant des offres pratiques et des recommandations sur les aspects techniques et juridiques. Des solutions sur mesure pour des assistants IA intelligents et des formations continues ciblées sont au centre des préoccupations.

À propos de l'IT Club

L'IT Klub Mainz & Rheinhessen a été fondé dans le but d'être un représentant de la branche pour les entreprises de la région. En tant que réseau, l'IT Klub propose à ses membres le transfert de connaissances, la formation continue, la promotion de la relève et le marketing du site.

Document de synthèse DeepSeek en PDF

Randnotiz

Cet article a été généré en tant qu'extrait du PDF à l'aide de l'IA (mais pas uniquement avec l'IA).

L'extrait de texte de cet article, que seuls les moteurs de recherche voient, est appelé "extrait". Il a également été créé à l'aide de l'IA.

L'image de l'article a été générée avec l'aide de l'IA. Les deux diagrammes ont également été générés avec l'aide de l'IA.

Le PDF à télécharger a été créé, à l'exception du contenu, à nouveau à l'aide de l'IA:

Cette mini-illustration "Création assistée par l'IA" a également été générée par l'IA. Cela commence à devenir ennuyeux (mais dans le bon sens du terme !) …

Celui qui parle d'IA et qui propose des conseils et des solutions en matière d'IA devrait également utiliser l'IA lui-même. C'est exactement ce qui se passe ici. D'autres exemples suivront dans de futurs articles, comme la génération très efficace de code de programme par des assistants IA (programmation IA).

DeepSeek: La révolution de l'IA chinoise aussi en version sécurisée

Qu'est-ce que DeepSeek ?