Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

DeepSeek-R1: un petit modèle de langage vaporise le marché boursier

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Article au format PDF (uniquement pour les abonnés à la newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Avec son modèle d'IA DeepSeek-R1, la Chine a réussi à faire honte aux Américains. DeepSeek-R1 est nettement plus efficace que ChatGPT d'OpenAI. Même les dérivés super petits de R1 sont presque aussi bons que OpenAI o1 dans les principaux benchmarks. La bourse a réagi par une onde de choc. On ne s'est même pas rendu compte qu'il existait déjà un autre modèle DeepSeek.

Introduction

Tout le monde connaît ChatGPT. Depuis "hier" au moins, tout le monde connaît DeepSeek. Les investisseurs en actions, en particulier, ont dû remarquer que quelque chose s'est passé sur le marché de l'IA.

DeepSeek a mis à disposition gratuitement un blueprint qui peut rendre OpenAI obsolète.

Cela a été démontré par DeepSeek-R1 et ses modèles de distillats.

OpenAI garde secret son modèle phare ChatGPT (y compris o1, o3, etc.) dans les versions les plus récentes et cache au public les détails le concernant. DeepSeek, une entreprise chinoise, fait en revanche cadeau de son modèle phare en le rendant public. C'est dommage pour OpenAI, qui voulait gagner de l'argent avec ChatGPT, mais qui ne parviendra probablement jamais à faire des bénéfices avec ce produit.

Coûts pour la création de DeepSeek-R1 étaient nettement inférieurs à ceux de ChatGPT dans chaque nouvelle version. De plus, R1 peut être exploité en pleine capacité par n'importe quelle entreprise moyenne. Les variantes plus petites fonctionnent même sur des ordinateurs portables. Exploiter soi-même signifie ici: ils téléchargent le modèle R1, le copient sur leur serveur AI (ou portable), désactivent ensuite la connexion Internet si nécessaire et peuvent ainsi travailler complètement de manière autonome avec leur intelligence artificielle.

Les modèles d'IA de DeepSeek peuvent être téléchargés et exploités de manière autonome sur un serveur ou un ordinateur portable personnel.

Pour de nombreux cas d'application, cela est très utile.

Source est la qualité de DeepSeek-R1 ?

La qualité d'un modèle de IA est vérifiée par des benchmarks. C'est des questions d'essai normalisées que l'on pose au modèle. La capacité d'un modèle de IA à satisfaire un besoin spécifique dans votre entreprise ne peut être évaluée qu'en expérimentant (de manière simple et rapide) pour ce cas d'utilisation en particulier. Vous devez donc savoir pour quoi vous voulez utiliser l'IA.

Les benchmarks donnent une très bonne indication de la qualité d'un modèle en soi. Voici les résultats des benchmarks publiés par DeepSeek lui-même:

Vergleich von DeepSeek-R1 (3 Versionen) mit OpenAI o1 (Version 1217) und OpenAI o1-mini. Quelle

La barre de gauche est celle de DeepSeek-R1, la deuxième celle du modèle de référence OpenAI o1. Comme on peut le constater, R1 est aussi bon que o1. Les benchmarks mentionnés sont standard. Il s'agit en particulier de:

  • AIME 2024: Mathematikprobleme
  • Codeforces: Tâches de programmation
  • GPQA Diamond: GPQA désigne un référentiel de questions-réponses gradué, Google-proof. Questions à choix multiples
  • MATH-500: Conclusions mathématiques
  • MMLU (Mesurer une compréhension de l'intelligence artificielle massive multitâche en langage): Questions à choix multiples provenant de nombreux domaines d'expertise

Pour répondre à la question en tête: DeepSeek-R1 est donc très bon. Le modèle présente quelques transferts de connaissance intentionnels. Il répond aux questions politiques critiques comme si cela plaisait à la Chine. Le modèle ne doit toutefois pas être considéré comme un chatbot. Dans ce sens, ce détail est peut-être choquant, mais il est souvent sans importance du point de vue technique.

La qualité de DeepSeek a été confirmée par certains utilisateurs. Voici un compte-rendu traduit du anglais en français, qui compare R1 et OpenAI o1 (ci-dessous, en citation):

  • Pour la raisonnement logique, R1 est beaucoup mieux que tout modèle SOTA précédent jusqu'à o1. Il est meilleur que o1-preview, mais d'une étape en dessous de o1. Cela se reflète également dans le test ARC AGI.
  • Mathématiques: La même chose vaut pour les mathématiques: R1 est un tueur, mais o1 est meilleur.
  • Codage: Je n'ai pas eu le temps de jouer beaucoup, mais d'après ce que j'en vois, c'est à égalité avec o1, et le fait qu'il coûte 20x moins cher en fait un gagnant pratique.
  • Écrire: Ici R1 prend la tête. Il transmet les mêmes impressions que l'opus initial. C'est libre, moins censuré, a beaucoup plus de personnalité, est facile à piloter et est très créatif par rapport aux autres modèles, même par rapport à o1-pro.

Le cours de l'avenir

Si l'on suit l'évolution dans le domaine de l'IA, plusieurs choses sautent aux yeux:

  • Les modèles d'IA s'améliorent.
  • Les meilleurs modèles d'IA deviennent de plus en plus petits (ils sont à peine "larges", comme suggéré dans "Large Language Modells").
  • Les méthodes d'entraînement pour créer des modèles d'IA sont de plus en plus sophistiquées.
  • Les petits modèles d'IA existants peuvent facilement être rendus beaucoup plus performants en interrogeant de nouveaux modèles.
  • La vitesse de la lumière est une sous-estimation pour désigner la vitesse des développements.

Toutes ces choses représentent pour OpenAI des menaces existentielles.

Une connaissance encore plus importante est la suivante: avec l'aide du sogenannte Apprentissage par renforcement (apprentissage renforcé), des modèles de petite intelligence artificielle existants peuvent être considérablement améliorés. On prend les réponses que le modèle maître R1 donne à des questions posées et on les alimente dans les petits modèles élèves. L'intelligence des modèles élèves reçoit alors un immense boost et peut même mieux penser et tirer des conclusions. DeepSeek a décrit une méthode raffinée (réflexion émergente) pour que cela fonctionne particulièrement bien. ([1])

Ainsi, des modèles open-source tels que Qwen-2.5 et Llama-3.1, qui étaient déjà très bons en soi, pouvaient être encore améliorés avec un minimum d'efforts. OpenAI doit au contraire investir beaucoup de temps, d'énergie et d'argent pour obtenir des résultats meilleurs. Alors que OpenAI est un secret tenu, ces progrès sont réalisés en public et sont accessibles à tous.

Selon Testrapport, DeepSeek-R1 est environ 30 fois moins coûteux à utiliser que OpenAI o1 et environ 5 fois plus rapide que o1. On peut aller encore plus loin en termes de coût si on utilise intensivement R1 et qu'on l'installe sur un serveur propre. De plus, il existe des variantes de R1 qui peuvent être utilisées même sur un ordinateur portable (ou à défaut même sur un smartphone).

Dérivé de DeepSeek-R1

Comme on peut le voir dans l'illustration ci-dessus avec le benchmark, il existe d'autres modèles de DeepSeek:

  • Vue profonde-R1-32B
  • DeepSeek-V3

DeepSeek-V3 a été publié fin décembre 2024, il est donc déjà obsolète (voir "Vitesse de la lumière"). Il a servi de base à R1.

DeepSeek-R1-32B est une version distillée de DeepSeek-R1, qui compte 685 milliards de paramètres (685B). La version distillée n'a que 32 milliards de paramètres, elle peut donc être exécutée sur un serveur de IA abordable. Distiller signifie qu'il s'agit d'un Extrait du modèle plus grand. Remarque: différentes sources de DeepSeek donnent une fois 685B et une autre fois 671B paramètres.

En plus de cet un seul extrait, DeepSeek-R1-32B, il existe d'autres variantes qui peuvent être sur des matériel moins coûteux exploitées elles-mêmes. Cela est juste pour l'info pour tous ceux qui veulent encore utiliser ChatGPT pour automatiser des processus.

Les variantes de DeepSeek-R1 sont (état au 28.01.2025):

  • DeepSeek-R1-32B: modèle secondaire issu du benchmark. Il s'agit de DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-8B
  • Vue profonde-R1-Distill-Llama-70B
  • Vue profonde-R1-Distill-Qwen-14B
  • Recherche approfondie-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Qwen-1.5B

En outre, il y a DeepSeek-R1-Zero, qui a la même taille de modèle que le modèle principal. Zero a subi moins de processus d'entraînement que le modèle principal, il est donc un peu moins bon (mais toujours meilleur que tout ce qu'OpenAI a réussi à faire jusqu'à présent avec un budget à peu près raisonnable).

Le modèle principal, DeepSeek-R1, a certes 685 milliards de paramètres, mais seuls 40 milliards d'entre eux sont actifs simultanément. Il s'agit d'une architecture dite de mélange d'experts (MoE). C'est comme chez l'homme: De tous les neurones de votre cerveau, tous ne sont pas actifs lorsque vous réfléchissez. Au contraire, seule une petite partie de vos neurones est active lorsque vous parlez, par exemple. Le reste de vos neurones dans le cerveau se reposent et n'ont pas besoin d'être actifs.

DeepSeek-R1 est "petit" parce qu'il ne doit utiliser qu'une petite partie de ses nombreux neurones à la fois lorsqu'il réfléchit.

C'est extrêmement économe en ressources.

Ce nombre réduit de neurones actifs simultanément permet à R1 de fonctionner sur du matériel moins cher. OpenAI doit avoir honte ici. En effet, les modèles OpenAI nécessitent des infrastructures de serveurs qui dépassent l'entendement. R1, en revanche, peut être exploité par toute PME disposant d'une situation économique raisonnable.

Les distillats de R1 sont issus de ce que l'on appelle la distillation des connaissances. Pour cela, on prend le modèle principal comme professeur et on le fait interroger par un élève. C'est analogue à la manière dont un enfant apprend de ses parents, sauf que jusqu'à un certain âge, l'enfant est (souvent) nettement moins intelligent que ses parents.

Chaque distillat a été créé sur la base d'un LLM préexistant. Une fois, c'est Llama-3.1-8B de ou Llama-3.3-70B-Instruct de Meta qui a été utilisé. D'autres distillats sont basés sur différentes variantes du modèle Qwen-2.5 d'Alibaba.

Chances et risques

Apparemment, des modèles d'IA de plus en plus performants et de plus en plus petits sont publiés à un rythme toujours plus rapide. OpenAI devient un modèle de fin de série. ChatGPT, OpenAI o1 et tous les autres modèles sont certes de plus en plus performants, mais aussi de plus en plus chers.

OpenAI garde ses modèles, algorithmes et données secrets. DeepSeek fait exactement le contraire. Le pipeline d'entraînement est public. Les modèles sont publics, ils peuvent être téléchargés. Sur un ordinateur portable d'IA, nous faisons tourner un modèle DeepSeek. Sur un ordinateur portable !

OpenAI est détruit et restera en deçà des attentes en termes de bénéfices.

Les modèles open source sont l'avenir.

Les modèles DeepSeek sont extrêmement bons. Ils ont détruit des valeurs boursières. D'ailleurs aussi dans le domaine de l'énergie ( «Siemens Energy: 20 % Crash – Fantaisie à la AI ?», article du 27.01.2025), car de tels modèles plus petits comme ceux de DeepSeek peuvent être exécutés sur des matériel moins coûteux, tandis que OpenAI doit gaspiller de l'énergie. L'investisseur Marc Andreesen a commenté: "DeepSeek est l'un des plus grands et impressionnants progrès que j'ai jamais vu – et comme logiciel libre, un cadeau profond à la planète" (Source: réseau évitable avec lettre avant Y).

Dans quel domaine DeepSeek peut-il être utilisé ?

Personne ne devrait avoir l'idée d'utiliser DeepSeek sous sa forme originale comme chatbot. Les connaissances favorables à la Chine peuvent toutefois être rendues inoffensives.

Les cas d'application suivants sont tout de même plus importants qu'un chatbot ennuyeux (extrait):

  • Trouver et interroger les connaissances de l'entreprise
  • Analyser les factures en raison de la loi sur la chaîne d'approvisionnement et calculer l'empreinte CO₂
  • Créer automatiquement des recommandations pour la résolution des tickets d'assistance
  • Classification automatique des messages, textes et autres documents
  • Tirer des conclusions logiques automatiques
  • Résoudre des problèmes mathématiques
  • Et les États-Unis.

C'est exactement ce qui peut maintenant se passer sans OpenAI, et aussi bien qu'avec OpenAI.

La chute d'OpenAI

Faire de l'IA sans OpenAI présente certains avantages:

  • Souvent de meilleurs résultats
  • Des coûts prévisibles et toujours faibles
  • Sécurité totale des données
  • Indépendance totale
  • Optimisable à volonté
  • Valeur stratégique

OpenAI a un avenir très difficile devant elle. OpenAI ne peut pas résoudre ce problème en améliorant les modèles d'IA, car des modèles d'IA toujours plus performants sont publiés en open source par DeepSeek & Co.

OpenAI DeepSeek (and others)
Large models Small models
Closed-Source Open-Source

Getting better, bigger, and more expensive

Getting better, smaller, and cheaper

Slow release cycles

Light speed

Progress through money and the most expensive personnel

Progress through a huge open source community

Operation: Energy problem, hardware problem

Operation on standard AI servers or laptops

OpenAI sera bientôt tellement dépassée sur le plan qualitatif qu'elle devra se trouver un autre domaine d'activité. Des signes de cette évolution sont apparus il y a plusieurs mois déjà, mais personne ne voulait les voir. Lors des Olympiades de mathématiques de l'intelligence artificielle, par exemple, le vainqueur était un modèle d'intelligence artificielle open source.

Seule l'intégration de la recherche sur Internet, l'automatisation du navigateur ou l'OpenAI Operator constituent encore des bouées de sauvetage à peu près notables. Tout meilleur programmeur d'IA peut toutefois programmer de tels systèmes, car ils se basent sur des technologies standard librement disponibles. Ainsi, OpenAI restera tout au plus intéressant pour les utilisateurs individuels qui se réjouissent d'obtenir une bonne fonction en échange de données. On peut douter qu'OpenAI puisse ainsi compenser ses immenses coûts en matériel, énergie et personnel.

Le monde au pays des rêves

D'ailleurs: il existe déjà un nouveau modèle de DeepSeek: Janus-Pro. Janus-Pro est un modèle à deux têtes, pour rester fidèle à la dénomination choisie par DeepSeek «Janus». Janus-Pro est à la fois un générateur d'image et un inspecteur d'image. Vous pouvez donc vous faire générer des images ou charger des images dans Janus et poser des questions sur les images.

La bourse a été vaporisée par DeepSeek-R1 et non par Janus-Pro.

Les nouvelles concernant R1 sont arrivées dans le monde avec un retard de l'âge de pierre (environ 7 jours après la publication du modèle). Au moment du krach boursier, Janus-Pro existait déjà, mais personne ne l'a remarqué. Ils sont ainsi informés plus tôt que la plupart des autres.

Janus-Pro est selon les benchmarks meilleur que DALL-E 3, mais si petit qu'il peut rentrer dans un chapeau de paille (ou être exécuté sur un ordinateur portable).

Le génie de la R1

Il ne s'agit pas principalement du fait que R1 ait publié un modèle supérieurement efficace qui fait concurrence à OpenAI. Il s'agit de la publication de la maquette pour cela. Tous les chercheurs en intelligence artificielle du monde entier savent maintenant comment créer des modèles meilleurs que o1. Et ce n'est pas suffisant: ces modèles sont plus petits, meilleurs, moins chers que ceux d'OpenAI et sont de plus librement disponibles et répliquables à tout moment.

Si OpenAI devait un jour réaliser des bénéfices, ce serait probablement grâce à une Superintelligenz. Dans ce cas, nous aurions d'autres problèmes que la décision de savoir avec quelle intelligence artificielle un entreprise peut automatiser ses processus. Car cette superintelligenz devrait arriver dans les années qui suivent. Sinon, OpenAI serait probablement soit en faillite, soit obsolète à ce moment-là.

Comme l'a dit quelqu'un dans un commentaire sur un forum d'IA:

Cette année (2025, fin janvier), plus de progrès ont déjà été réalisés en matière d'IA que durant toute l'année 2024.

C'est peut-être légèrement exagéré, mais ce n'est sans doute pas vraiment éloigné de la réalité. En tout cas, chaque semaine qui passe rend cette affirmation de plus en plus juste, voire même un euphémisme.

Celui qui ne réfléchit pas encore de manière plus concrète à l'automatisation des processus dans l'entreprise avec l'intelligence artificielle, est soit jamais prêt à le faire, soit utilise les ordinateurs uniquement pour écrire des factures (maçons, etc.). Surtout pour les départements de développement logiciel, l'intelligence artificielle est extrêmement passionnante !

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Ainsi, l'intelligence artificielle peut remplacer le Handelsblatt Morning Briefing