Quels sont les principaux points de critique concernant Microsoft Copilot, selon les tests ?

Le test montre que Copilot est totalement inutilisable pour des tâches simples, comme la synthèse de textes, et fournit des réponses fausses ou non pertinentes. De plus, il existe des préoccupations importantes en matière de sécurité concernant l'accès aux données.

Quels risques sont engendrés par l'accès des autorités et services secrets américains aux données traitées par Copilot ?

Même si des données d'entreprises européennes sont stockées dans l'UE, il existe le risque que les autorités et services secrets américains y accèdent sans autorisation, ce qui représente un risque de sécurité important.

Pourquoi Microsoft Copilot a-t-il échoué lors de la synthèse de l'article de blog?

Copilot a fourni une réponse qui n'avait aucun rapport avec le texte initial et qui, par conséquent, n'a pas satisfait à la consigne, à savoir résumer un texte. La réponse contenait de nombreuses affirmations non pertinentes et était donc totalement inutilisable.

Comment le résultat de Copilot se distingue-t-il de la réponse d'une IA hors ligne?

L'IA hors ligne a réussi à résumer correctement l'article de blog et a fourni un résumé précis et pertinent, tandis que Copilot a produit une réponse incohérente et non pertinente. Cela montre les différences significatives de performances entre les deux systèmes.

Quel est le principal problème de Microsoft Copilot, tel que décrit dans l'article ?

Copilot échoue sur des tâches simples telles que la synthèse de textes. Les résultats sont souvent incorrects, non pertinents et ne contiennent aucune information essentielle tirée du texte original.

Pourquoi Copilot est-il critiqué dans l'article comme étant peu fiable et inefficace ?

L'article constate que Copilot n'est pas en mesure d'accomplir de manière fiable la tâche de résumé d'un article de blog. Les résumés sont inexacts et ne sont pas utiles pour l'utilisateur.

Quelles sont les conséquences en matière de sécurité des données liées à l'utilisation de Copilot ?

L'article souligne des problèmes de données liés à l'utilisation de Microsoft Copilot. Il existe des inquiétudes quant au fait que des données sensibles pourraient ne pas être suffisamment protégées, ce qui soulève des préoccupations concernant la sécurité des données.

L'échec complet de Microsoft Copilot

Microsoft présente Copilot comme une solution professionnelle qui doit être particulièrement utile pour toutes sortes d'activités. Un test avec une tâche standard montre que même avec une approche bienveillante, cela peut être qualifié de totalement inexact. Outre ces faiblesses fonctionnelles, la question de la sécurité des données se pose.

Qu'est-ce que Microsoft Copilot ?

Copilot est quelque chose qui a trait à l'intelligence artificielle. Le test n'a pas permis de déterminer ce qu'est exactement Copilot. Les résultats du test n'ont pas encouragé à poursuivre le test.

La réponse à la question de savoir ce qu'est Copilot est fournie par Microsoft par e-mail, après s'être inscrit à la version d'essai gratuite. Selon Microsoft, Copilot est un système d'intelligence artificielle performant :

Que vous souhaitiez apprendre à programmer, planifier des vacances parfaites ou que vous ayez simplement besoin d'un peu d'aide pour écrire un e-mail difficile, votre compagnon IA au quotidien vous aidera à tout faire comme un professionnel"
Source : Courrier de bienvenue de Microsoft "Bienvenue dans Microsoft Copilot, votre compagnon IA au quotidien".

Cette déclaration donne l'impression que Copilot vous permet de faire beaucoup de choses très bien. Avec Copilot, vous serez en mesure de "tout faire comme un professionnel", affirme Microsoft.

Le mail contient même un exemple concret, qui est mentionné en bonne place dans le mail :

Source : courriel de bienvenue à Copilot mentionné ci-dessus. Ajout d'un cadre rouge pour ce message (l'image a été traduite automatiquement).

Il s'agit donc de résumer des réponses. L'auteur de cet article ne sait pas exactement ce qu'il entend par là. La page Microsoft liée ("Tester maintenant") brille elle aussi par ses généralités : "Mettre en œuvre l'inspiration" et "En faire plus, tout simplement – à tout moment et partout".

Le test du copilote

Ce test n'est certainement pas représentatif de toutes les possibilités que Copilot devrait offrir. Il vérifie cependant l'aptitude de Copilot pour une tâche très fréquente : Résumer des textes.

Microsoft écrit quelque chose sur les réponses résumées, du moins dans le premier cas d'application (voir ci-dessus). Est-ce que cela concerne peut-être (aussi ou surtout) le résumé de textes ?

La tâche n'est donc ni trop difficile ni trop éloignée de la réalité. Presque tout le monde pourrait l'envisager comme une application pour les systèmes d'intelligence artificielle.

Copilot a été contraint d'effectuer deux tests. Lors du premier test, Copilot a reçu une URL vers un article de blog et devait résumer l'article. Le résultat était tellement mauvais qu'un deuxième test a été jugé équitable. Ici, le soi-disant Copilot de Microsoft a reçu le test manuellement, afin que Copilot ne soit pas surchargé par la récupération d'un article sur Internet.

Test : résumer des articles de blog par URL

La question (prompt) posée au copilote était simple :

Résumez l'article de blog suivant : https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei/
Question exacte à laquelle le copilote devrait répondre.

La réponse de Copilot a été la suivante :

Réponse de Copilot à la question ci-dessus. Situation au 08.05.2024 (l'image a été traduite automatiquement).

Les sources ont été masquées dans la capture d'écran. Sur les cinq sources mentionnées, quatre renvoyaient à un site web et la cinquième à un autre site web . Les deux sites web ne sont pas mentionnés dans le texte qui devait être résumé et ne sont pas reliés.

Le texte donné, que Copilot devait résumer, ne contient aucune information sur les "systèmes SMA". L'auteur du texte ignore totalement ce qu'est un "système SMA". En tant qu'informaticien, il n'en a jamais entendu parler. Soit 30 ans et plus d'expérience en informatique n'ont servi à rien, soit Copilot a fabulé ou a balancé des antifacts non pertinents (par rapport à l'énoncé du problème).

Le copilote répond de manière totalement erronée à une tâche standard. La réponse de Copilot brille par son inutilité.
Voir l'article pour plus de détails.

Copilot écrit quelque chose à propos de "transparence, d'autorégulation et de supervision". Ces termes n'apparaissent pas dans le texte. Sous le texte, dans une boîte de contact, on trouve seulement le mot-clé "contrôle total des données", qui se réfère à une IA hors ligne qui rend Copilot inutile pour de nombreuses tâches et qui, selon les apparences, peut souvent surpasser Copilot. Il n'était pas non plus question dans le texte de départ de la "discrimination" que Copilot a glissée dans sa réponse.

Dans l'article que Copilot devait résumer, il n'est pas non plus question en premier lieu du RGPD, mais de l'IA. Les termes "protection des données" et "RGPD" ne sont pas mentionnés dans le texte principal (et quand ils le sont, c'est très rarement et sous la forme de "… dans le blog Dr. DSGVO" ou autre).

Conclusion : le copilote a complètement échoué et n'a pas résolu le problème.

Nulle part il n'était indiqué que la réponse pouvait être fausse, qu'il valait mieux la vérifier ou autre.

Le 05.07.2024, Copilot a donné la réponse suivante à la même question (avec une formulation légèrement différente) :

Source : Microsoft Copilot avec annotations en rouge par l'auteur (l'image a été traduite automatiquement).

L'image parle d'elle-même.

Test : résumer le texte d'un article de blog

Passons au test numéro deux. Nous voulons exclure la possibilité que ce soit la récupération d'une URL sur Internet qui soit en cause. Il se peut en effet que Copilot ait été dépassé par la situation.

Pour ce test, il s'agissait de faciliter la tâche de Copilot, après l'échec cuisant de ce dernier lors du test précédent. Le texte de l'article de blog a donc été copié-collé manuellement dans Copilot. Voici à quoi cela ressemblait :

Test de Copilot : résumer le texte prédéfini (seul l'extrait du texte est montré, car trop long pour la capture d'écran). L'image a été traduite automatiquement.

Malheureusement, il n'a pas été possible de copier l'article entier dans la chatbox de Copilot. Cela a bien sûr été pris en compte. Toutefois, ce n'est pas la raison du résultat du test qui suit. La réponse fournie par Copilot était la suivante :

Source : https://copilot.microsoft.com/, Situation au 08.07.2024 (l'image a été traduite automatiquement).

La réponse n'a rien à voir avec la question de départ. Quelques preuves de la mauvaise qualité de la réponse, qui est inférieure à celle d'un petit enfant. Le petit enfant aurait fait moins mal en ne disant rien :

GPT-3 n'a pas été mentionné dans le texte que Copilot devait résumer (1er, 2e et 3e paragraphes de la réponse de Copilot).
Les chercheurs mentionnés par Copilot et leur étude n'ont pas été mentionnés dans le texte (1er + 2e paragraphe).
Les aspects "capacité à former des analogies" ainsi que "problèmes d'analogie" mentionnés au 3e paragraphe n'ont pas été évoqués dans le texte. Il n'y était question que de signaux analogiques (versus signaux numériques) et le mot "analogique" était utilisé dans une autre phrase, mais de manière totalement subordonnée ("…alors nous parlons de manière analogique de robots avec un ordinateur intégré").
Les "grands modèles linguistiques" évoqués par Copilot n'étaient pas mentionnés dans le texte. Il n'y était question que de "modèles linguistiques". Les mots "grand" ou même "LLM" (comme "Large Language Model") n'apparaissaient pas.
Les sources mentionnées par Copilot n'ont pas été mentionnées dans le texte (1er, 2e et 3e paragraphes ainsi que les références de Copilot).

Si l'on retire de la réponse du copilote toutes les affirmations qui n'ont rien à voir avec le texte de départ qui devait être résumé, il reste très peu de choses. A l'école, l'enseignant donnerait probablement la note 6 pour "insuffisant" à la réponse du copilote.

Le résultat fourni par Copilot est une impertinence. Il brille par des affirmations arbitraires et peut être qualifié de complètement faux. La tâche consistait à résumer un texte donné. Cette tâche n'a même pas été abordée. Au lieu de cela, la réponse ressemble à un résultat de recherche aléatoire*, qui a été résumé par un modèle linguistique. De plus, on fait semblant que la réponse est (la) réponse (parfaite).

Nulle part sur la surface de contrôle (Web-UI) ne se trouve un avertissement* selon lequel les réponses Copilot pourraient être fausses ou inexactes. En tout cas, pas si l'on regarde partout à l'écran. Peut-être attend Microsoft que l'utilisateur cherche et lit des articles de connaissance Microsoft jusqu'à ce qu'il trouve quelque part "Copilot peut aussi raconter des absurdités totales. Mais espérons que cela ne se produira pas souvent, car nous sommes Microsoft et on fait semblant que Copilot pourrait vraiment aider avec toutes les tâches possibles, comme par exemple résumer des réponses".

Résultat avec sa propre IA

Le test a peut-être été injuste (ce qui semble plutôt ironique si l'on regarde l'énoncé du problème). Résumer un texte était peut-être trop difficile et dépassait même les capacités de l'être humain le plus intelligent (c'était en tout cas ironique maintenant). Pour exclure cette possibilité, la même tâche a été confiée à une IA hors ligne. Sans Microsoft, Copilot, Azure ou ChatGPT.

La tâche donnée à la AI hors ligne était :

Résumez la page web suivante : https://dr-dsgvo.de/ki-und-intelligenz-ist-der-mensch-nicht-auch-ein-token-papagei
Tâche identique pour l'IA hors ligne, trop difficile pour le copilote.

La réponse non traitée de l'IA hors ligne était la suivante :

"L'auteur affirme que l'IA (intelligence artificielle) et l'homme fonctionnent de la même manière que les perroquets à jetons, en prenant des décisions basées sur les probabilités. Il souligne que ce n'est pas le mécanisme en soi qui est important, mais le résultat. L'auteur critique le fait que de nombreuses personnes ont une idée erronée de l'intelligence et n'en trouvent pas de définition. Il soutient que les systèmes d'IA tels que les réseaux neuronaux sont des mécanismes "simples" capables de résoudre des problèmes complexes. Il affirme également que l'être humain est un perroquet à jetons en ce sens qu'il prend des décisions basées sur des probabilités. L'auteur présente une version bêta d'une IA hors ligne et souligne que cette solution est meilleure que ChatGPT et n'envoie pas de données à des tiers. Il propose des conseils gratuits aux entreprises et aux administrations qui ont besoin d'une solution d'IA. Dans l'ensemble, l'auteur soutient que les systèmes d'IA fonctionnent comme des perroquets à jetons et que ce n'est pas le mécanisme en soi qui compte, mais le résultat"."
Résultat de la tâche mentionnée avec une IA qui fait le travail, donc pas de copilote.

Chacun peut juger du résultat par lui-même. Une comparaison avec Copilot devrait permettre à chacun de voir où se situent les différences de qualité.

Mais cela doit être très compliqué de faire quelque chose comme ça, qui semble à peine soluble même pour un copilote ?

Oui, c'est très compliqué (ironie). Il a fallu presque plus de temps pour écrire le programme que pour attendre la réponse (qui est arrivée rapidement). La base de cette IA hors ligne existait déjà. Chaque entreprise peut avoir sa propre IA de ce type. Il est possible de construire tout aussi rapidement des prototypes permettant de tester l'adéquation de base d'une IA pour certains cas d'application.

L'intelligence artificielle hors ligne, qui a fourni le résultat ci-dessus, a fait automatiquement suivant :

Récupération de l'URL mentionnée dans l'invite
Extraction du contenu principal (= article de blog)
Résumé de l'article de blog
Sortie de la réponse

L'IA hors ligne signifie que l'IA peut fonctionner de manière totalement autonome et qu'elle peut communiquer avec Internet ou d'autres systèmes informatiques si nécessaire. C'est exactement ce qui s'est passé lorsque l'article du blog a été récupéré sur Internet.

ChatGPT : brève excursion

Pour l'extrait de texte recopié, ChatGPT a fourni le très court résumé suivant de cet article (environ 4700 caractères) :

"L'article de blog critique fortement Microsoft Copilot. Malgré la publicité de Microsoft en tant qu'outil d'IA polyvalent, Copilot a échoué dans le test en ne réussissant pas une tâche simple, à savoir résumer un article de blog. Les résultats étaient imprécis et non pertinents. Les testeurs n'ont pas trouvé d'informations claires sur les fonctionnalités de Copilot et se sont en outre interrogés sur la sécurité des données. Dans l'ensemble, Copilot est décrit comme peu fiable et inefficace"."

Comme on peut le voir, le résumé peut être qualifié de sémantiquement utilisable. En revanche, sa longueur est plutôt inutilisable. Le prompt-tuning permet d'aller plus loin. Mais il manque alors quelques messages clés. C'est là que le prompt-tuning peut aider. Si vous souhaitez faire résumer des textes plus souvent et que vous n'avez pas envie d'exercer le métier de tuner, il vaut mieux utiliser votre propre système d'IA.

Conclusion

Copilot est apparemment un instrument de marketing de Microsoft et non une IA sérieuse. En tout cas, c'est le cas pour le test mentionné. D'ailleurs, il est également possible d'effectuer des tâches de programmation sans Copilot. Pour cela, on utilise des modèles d'IA disponibles qui font un très bon travail.

Celui qui souhaite charger ses propres données dans la Microsoft Cloud devrait y réfléchir à deux fois , à condition qu'il ne soit pas déjà découragé par les capacités discutables de Copilot.

Ce qui est gênant, c'est l'assurance maximale de Microsoft, qui ne correspond absolument pas aux insuffisances de Copilot. On prétend à chaque endroit (mail, site web) que Copilot est le sauveur.

Ne préféreriez-vous pas utiliser une meilleure solution ? La condition préalable est de considérer des cas d'application concrets au lieu de regarder des déclarations de marketing. Considérer des cas d'application concrets est toujours une démarche judicieuse, surtout dans le domaine de l'IA.