Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

DeepSeek vs. ChatGPT: vérification des faits sur le modèle linguistique chinois de l'IA

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Article au format PDF (uniquement pour les abonnés à la newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

L'IA est un sujet extrêmement complexe que même de nombreux techniciens ne comprennent pas. A cela s'ajoute une couverture médiatique qui, pour des raisons de simplification nécessaire ou d'un besoin d'attention, est souvent imprécise. Il en résulte des déclarations qui donnent une image déformée de DeepSeek. L'essentiel en clair.

Introduction

DeepSeek est une entreprise chinoise. Récemment, cette entreprise a publié le modèle de langage DeepSeek-R1. Il est censé être aussi bon et même meilleur en partie que le modèle de langage o1 d'OpenAI ("ChatGPT").

Cela a conduit à ce que les valeurs d'entreprise des sociétés de l'intelligence artificielle comme Nvidia soient en baisse. Même l'organisation de protection des données noyb a rapporté cela dans leur newsletter du 30.01.2025

Il est souvent présenté comme si DeepSeek était nettement plus efficace que ChatGPT. C'est vrai pour les aspects pertinents, mais moins pour d'autres.

On lit alors des gros titres comme celui-ci:

Statut au 30.01.2025, Source: https://www.epochtimes.de/politik/deutschland/deutsche-datenschuetzer-wollen-chinesische-deepseek-ki-ueberpruefen-medienbericht-a5022687.html (l'image a été traduite automatiquement).

Cela donne l'impression que le modèle linguistique chinois n'est pas sûr, car les données des utilisateurs pourraient être utilisées à mauvais escient.

La plupart des affirmations de ce type qui circulent dans le public ne sont pas totalement exactes.

Faits sur DeepSeek

Protection des données & sécurité des données

DeepSeek est le nom d'une entreprise chinoise. Si DeepSeek est plutôt utilisé pour désigner un modèle linguistique, il faut distinguer deux variantes:

  1. version cloud, également appelée "app
  2. Modèle de langage open source, utilisable de manière totalement autonome

La couverture de presse mentionnée plus haut, selon laquelle «DeepSeek» utilise probablement les données des utilisateurs à mauvais escime, ne peut s'appliquer qu'à la version en ligne ( «App»). Car le modèle de langage open source peut être téléchargé et exécuté localement, sans aucune connexion Internet. Sans une telle connexion, les données des utilisateurs peuvent se rendre en Chine.

Le modèle linguistique de DeepSeek peut être utilisé sans aucun risque pour la sécurité.

A savoir dans la version locale, qui peut fonctionner sur son propre serveur d'IA.

ChatGPT n'est d'ailleurs pas non plus nécessairement sûr. Les lois de renseignement américaines permettent aux autorités et aux services de renseignement américains de récupérer les données des autres. L'accord DPF UE-États-Unis sur la protection des données n'avait jamais beaucoup de valeur et était en réalité un formalisme. Il repose d'ailleurs sur un décret présidentiel de Joe Biden. Avec la dissolution d'un important organe par Trump, il sera encore plus entaché. Le décret présidentiel pourrait être également annulé à tout moment par Donald Trump.

De plus, OpenAI s'amuse beaucoup à collecter vos données. Même si vos données ChatGPT ne sont pas utilisées pour la formation à l'IA, elles le seront peut-être à d'autres fins ! Par exemple pour évaluer l'IA d'OpenAI, qui vous rendra alors de plus en plus dépendant (des augmentations de prix ont déjà été annoncées).

Efficacité

Il est prétendu que le training de DeepSeek-R1 a coûté environ 6 millions de dollars américains. Les coûts réels étaient plus élevés, car ce chiffre ne se rapporte pas aux coûts totaux et s'adresse en outre au modèle de base DeepSeek-V3. Une somme de 100 millions de dollars américains a été signalée pour ChatGPT.

Ce qui est vrai, en tout cas:

  • DeepSeek-R1 peut être utilisé sur du matériel nettement moins cher que ChatGPT
  • DeepSeek-R1 répond beaucoup plus rapidement que ChatGPT, car il est nettement plus "petit"
  • Le fonctionnement de DeepSeek-R1 consomme donc beaucoup moins d'énergie

Pourquoi DeepSeek-R1 est-il plus petit que ChatGPT ? Selon les indications de DeepSeek, R1 est un modèle 685B, c'est-à-dire qu'il est composé de 685 milliards de connexions neuronales. ChatGPT devrait avoir une taille similaire. Alors quoi ?

DeepSeek-R1 fonctionne de la même manière que le cerveau humain: lorsqu'on parle, on active principalement le centre de langage. Lorsque l'on parle, donc, seuls quelques-uns de tous vos neurones dans le cerveau sont activés. Techniquement, cela est réalisé à DeepSeek-R1 grâce à une architecture appelée Mixture of Experts . Cette architecture est déjà depuis longtemps d'usage courant. Elle a été utilisée notamment par Mistral.

Comme DeepSeek-R1 est open source, il est possible de le télécharger et de l'exploiter soi-même. Pour faire fonctionner DeepSeek-R1 sur son propre matériel, il faut un serveur qui coûte environ 30.000 euros. De nombreuses entreprises peuvent se le permettre. En revanche, vous ne voulez pas faire tourner ChatGPT sur votre propre matériel, sans compter que vous ne pouvez pas le faire parce qu'OpenAI ne le souhaite pas et n'a donc pas publié le modèle.

Qualité

Dans divers benchmarks, DeepSeek-R1 fait aussi bien qu'OpenAI o1. Et ce, bien que R1 soit beaucoup plus efficace et plus petit que ChatGPT. Les utilisateurs rapportent que R1 est aussi bon que ChatGPT, d'autres voient R1 en tête.

La censure chinoise a supprimé ou déformé certains faits de la maquette. Par conséquent, la qualité de certaines questions politiques est mauvaise.

Toutefois, un chatbot général est un très mauvais cas d'utilisation pour une IA d'entreprise. Dans cette mesure, il est presque indifférent que certains faits politiques soient discutables dans R1. Avec des procédures standard telles que Fine-Tuning ou RAG, les applications textuelles peuvent très bien être exploitées avec R1. D'autres cas d'application peuvent être encore mieux réalisés avec R1. Il s'agit notamment:

  • Interroger les connaissances de l'entreprise (interroger vos documents),
  • Remplir les obligations découlant de la loi sur la chaîne d'approvisionnement, par exemple en analysant les documents des fournisseurs,
  • Création de résumés, de traductions ou de simplifications linguistiques.
  • Assistant de programmation

Le dernier exemple d'application est particulièrement intéressant. Ainsi, l'auteur a réussi à programmer en quelques heures ce qui aurait pris plusieurs semaines de temps. Et ceci le plus souvent sur le canapé avec un tablette peu améliorée et sans utilisation du microphone. C'est tout un différence entre passer 30 minutes à programmer avec l'intelligence artificielle en s'amusant ou parvenir au même résultat sans plaisir après deux jours.

Autres avantages de DeepSeek-R1 par rapport à ChatGPT

OpenAI sort toujours une nouvelle version ou sous-version de ChatGPT. Ces variantes diffèrent quant à la réponse à votre question. Une cohérence n'est pas donnée ici. Sans cohérence, aucune Fiabilité lors de l'automatisation des processus.

OpenAI est payant. La version gratuite est soit sans intérêt pour les entreprises, soit utilisée simplement. La boîte de chat payante n'aide pas à automatiser vos processus. L'interface de programmation d'applications (API) payante apporte des incertitudes: combien de fois devrez-vous appeler cette API ? Quelques données devrez-vous envoyer à l'API ? En fonction du volume des données, les coûts pour l'utilisation de l'API seront plus élevés ou moins élevés.

Les mises à jour ont lieu quand OpenAI les planifie. Cela signifie également que les mises à jour n'ont pas lieu lorsque vous le souhaitez. OpenAI, en tant que fournisseur, décide de la version de ChatGPT que vous pouvez utiliser.

DeepSeek fonctionne comme vous pouvez l'attendre. Une fois téléchargé, il répond toujours de la même manière. Les tests et les benchmarks montrent son état permanent.

DeepSeek peut être exploité à coûts fixes, qui se limitent principalement au prix de la matérielle (ou du coût de leur location).

DeepSeek peut facilement être remplacé par d'autres modèles ou des variantes plus récentes du modèle. Cela se produit exactement lorsque vous le voulez. Les incertitudes peuvent être éliminées grâce aux tests. En général, c'est une bonne idée de résoudre des cas d'application concrets avec l'intelligence artificielle. On peut les maîtriser et les valider très bien.

Pourquoi DeepSeek est-il un big bang ?

Il est très surprenant qu'un modèle de langage comme R1 batte, de l'avis du grand public, le chef de file, ChatGPT. Et ce, même si le modèle de DeepSeek est plus petit. De plus, DeepSeek aura utilisé moins de ressources qu'OpenAI.

Ce qui ne fait qu'ajouter à la difficulté: DeepSeek-R1 a été publié et mis en libre accès. En termes plastiques, cela signifie que:

  1. Tout le monde peut télécharger DeepSeek-R1 sur son disque dur en téléchargeant quelques fichiers dans son navigateur. Tout le monde
  2. Tout le monde peut alors installer R1 localement sur son serveur d'IA. Tout le monde.
  3. Chacun peut alors utiliser R1 aussi souvent et aussi longtemps qu'il ou elle le souhaite. Il n'y a pas de frais supplémentaires.

En revanche, voici les possibilités offertes par ChatGPT.

  1. Personne ne peut télécharger ChatGPT.
  2. Personne ne peut utiliser ChatGPT pour des tâches d'automatisation ou d'autres utilisations d'API sans devoir dépenser une quantité d'argent imprévisible.

La vraie sensation

Mais ce n'est pas tout.

C'est DeepSeek qui remporte la palme: DeepSeek nous donne à tous la recette de cuisine pour fabriquer le DeepSeek-R1.

Cela signifie que:

  • Tout le monde peut construire un clone de ChatGPT.
  • Personne n'a plus besoin d'OpenAI.

Concrètement, voici ce que DeepSeek met à disposition en open-source:

  • Méthode de formation de R1 en tant que concept ("paper")
  • Méthode d'entraînement de R1 comme bibliothèque de programmes utilisable (Python)
  • Ensembles de données distillées contenant des connaissances et des processus de pensée verbalisés de DeepSeek
  • des ensembles de données principaux comme C4 ou The Pile, qui sont depuis longtemps des biens communs

À titre d'illustration, voici un extrait d'un des ensembles de données de distillats mentionnés:

Ensemble de données OpenThoughts-114k, extrait.

Et voici la recette publiée pour que votre entreprise puisse elle aussi, si nécessaire, préparer un nouveau modèle d'IA de la qualité de ChatGPT:

Source: HuggingFace

C'était juste un extrait. D'autres détails sont également nommés et décrits, comme Multi-token Prediction.

Le code pour recréer DeepSeek-R1 est disponible en code source dans la bibliothèque Transformers en Python.

DeepSeek a révélé à tout le monde comment reproduire ChatGPT.

C'est la vraie sensation.

Plus de sensations

Au passage, DeepSeek a révélé à tous comment les modèles de langage existants, qui sont assez petits, peuvent être rendus encore plus intelligents de manière simple grâce à un transfert de connaissances.

Ces modèles plus petits s'appellent Modèles de distillation. Un tel modèle est si petit qu'il peut être exécuté avec un coût réduit en matérielle. Certains de ces modèles détaillés peuvent être exécutés sur un serveur AI à faible coût. Le plus petit de ces modèles peut même être installé sur un smartphone moderne et fonctionner sans connexion Internet !

DeepSeek a également rendu ces modèles de distillats librement disponibles.

Résumé

DeepSeek (en tant qu'entreprise ou modèle d'IA) ne présente pas de risque pour la protection des données si l'on n'utilise pas l'application DeepSeek. OpenAI présente un risque de sécurité pour les données sensibles, car on ne peut utiliser que la version cloud.

DeepSeek a révélé comment ChatGPT peut être remplacé. Les modèles plus petits en tant que déchets sont un grand cadeau supplémentaire qui a été donné. Pour un montant raisonnable (achat de matériel ou location d'un ordinateur), chaque entreprise peut désormais recréer ChatGPT pour elle-même.

Même si DeepSeek vient de Chine, l'open source reste l'open source. Il va de soi que tous les fournisseurs de grands modèles d'IA ont volé des données, et pas seulement DeepSeek. Google et Meta abusent également des données des utilisateurs.

Les entreprises allemandes peuvent utiliser sans risque l'IA de DeepSeek pour résoudre de nombreux problèmes et automatiser des processus.

À savoir avec une IA d'entreprise qui fonctionne (uniquement) dans votre entreprise.

L'occasion pour les entreprises d'automatiser des processus avec l'intelligence artificielle est devenue immense depuis DeepSeek-R1. Avec des modèles locaux, cela rend également beaucoup plus agréable d'accomplir les obligations de la réglementation sur l'intelligence artificielle, qui entrent en vigueur le 02 février 2025 !

Messages clés de cet article

DeepSeek-R1 est un modèle de langue chinoise qui, selon les rapports de test, est aussi bon que ChatGPT.

DeepSeek-R1 est plus efficace que ChatGPT, nécessite moins de puissance de calcul et consomme moins d'énergie.

DeepSeek-R1 est open source, il peut donc être téléchargé et exploité localement, ce qui garantit la sécurité des données.

Tout le monde peut utiliser DeepSeek-R1 et même créer ses propres modèles avec la même recette.

Au-delà de ces messages clés
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

DeepSeek-R1: un petit modèle de langage vaporise le marché boursier