L'IA offre d'énormes possibilités et comporte en même temps des risques considérables. Pour ces deux raisons, l'IA fait peur à beaucoup. C'est pourquoi ils affirment que l'IA est uniquement basée sur les statistiques et n'a rien à voir avec l'intelligence humaine. Ce faisant, ils oublient que toute notre existence est basée sur les statistiques.
Le facteur statistique de notre existence
On lit souvent dans les articles sur les modèles de langage que ces LLMs ne font que chercher le mot probable suivant à partir du mot précédemment généré et l'afficher. C'est fait mot après mot. Et c'est ainsi que cela donne un texte qui est considéré comme intelligentement créé par d'autres. Au lieu de mots, on traite en réalité des surnoms appelés tokens. Pour simplifier, les tokens sont quelque chose comme des parties de mots ou des syllabes. Les tokens sont utilisés pour obtenir une compression et aussi pour mieux saisir semantiquement les mots plus longs ou composés.
Le Hamburgischer Datenschutzbeauftragte utilise même cet argument pour dire ensuite qu'il n'est pas compétent en matière de IA, car celle-ci ne traite pas du tout de données personnelles. On peut difficilement trouver quelque chose d'utile à dire là-dessus. Cela repose sur une base qui manque complètement de fondement, comme on peut le prouver . La déclaration suivante pourrait déjà servir de contre-exemple:
Les modèles linguistiques prédisent le mot probablement suivant. Ce n'est pas intelligent.
Les modèles linguistiques disent probablement le mot suivant conforme au contexte donné. C'est intelligent.
Beaucoup ne prêtent pas attention à la partie en gras: elle n'est généralement pas mentionnée.
Grammaire allemande
L'homme peut également être appelé Token-Papageau. Le terme provient de quelqu'un avec qui l'auteur a discuté des détails techniques de l'intelligence artificielle. Cette personne a dit que les modèles linguistiques ne sont que des Token-Papageaux. Ils répètent donc ce qu'ils ont été entraînés à dire sur les données d'entraînement.
Pourquoi l'homme est-il aussi un papillon de token ? Lorsque nous parlons de la grammaire allemande, nous voyons comme locuteurs natifs que celle-ci repose sur des probabilités. Nous apprenons quelles mots et concepts s'accordent avec lesquels autres mots et concepts. Pour cela, nous apprenons des probabilités. Mais notre cerveau cache si bien le principe de l'apprentissage linguistique que nous ne remarquons pas que le principe fondamental de la grammaire est très simple. C'est seulement depuis l'émergence de l'approche Transformer en 2017, qui constitue une base très importante pour les actuelles IA, qu'il a été possible que même l'informatien naif puisse comprendre cela s'il le veut.
Nous pouvons attendre jusqu'à la saint-glinglin …
C'est grammaticalement correct, mais est-ce qu'un locuteur natif le dirait ainsi ?
Lorsqu'un étranger déforme une Expression en raison de son ignorance (ou d'une mémoire lacunaire) et la répète sous une forme différente, mais grammaticalement correcte, on reconnaît alors la personne comme étant un étranger. Car nous avons perçu la distribution de probabilité différente.
Désintégration radioactive
Commençons par une citation de Wikipedia, que n'importe quel physicien donnerait sans doute de la même manière:
Le moment de la désintégration de chaque noyau atomique est aléatoire.
Référence: Wikipédia
Cela signifie: Lorsque vous observez une particule, vous ne savez pas combien de temps cette particule existe. Ou autrement dit:vous ne pouvez pas savoir* combien de temps cette particule existe. Vous ne pouvez pas le savoir parce que la connaissance constituerait une infraction au monde physique reconnu. La connaissance n'est donc pas possible. Si vous êtes intéressé par plus, je recommande des livres scientifiques populaires comme ceux de Werner Heisenberg ou Albert Einstein.
Combien de temps faut-il pour qu'une substance radioactive comme l'uranium cesse d'émettre des radiations ? Si l'on considère une particule d'uranium, on ne peut généralement pas répondre à cette question. Pour les juristes: on ne peut pas répondre à cette question, même pas "en principe". Encore une fois: on ne peut pas répondre à la question de savoir quand une substance radioactive n'est plus radioactive en considérant une particule.
La demi-vie est le temps pendant lequel la radiation radioactive d'un matériau (nucléide radioactif) se trouve réduite à moitié. Comment calcule-t-on ce chiffre ? En tout cas, il vaut: "Le moment de transformation d'un noyau atomique unique ne peut pas être prédit…" (Halbwertszeit/Wikipedia). La demi-vie est déterminée comme un "moyen statistique" (la même source).
La désintégration radioactive est un processus aléatoire qui repose sur la statistique.
Physique quantique
La physique quantique fut rendue célèbre par la découverte d'Albert Einstein en 1905. Il découvrit que la lumière ne doit pas être comprise comme un rayon continu, mais sous forme de petits paquets appelés quanta. C'est ici que je m'arrête pour ne pas énerver trop de physiciens. On devrait encore mentionner l'existence du dualisme onde-particule qui se trouve à la lumière. Cela aboutit à l'expérience du dédoublement des fentes, qui est probablement le meilleur argument pour notre incapacité à comprendre réellement notre propre existence. ([1])
Le laser, par exemple, est basé sur les connaissances fournies par la physique quantique. Le GPS, qui est à la base du système de navigation de votre voiture ou de votre smartphone, n'existerait pas non plus sans la physique quantique. Le GPS, quant à lui, est basé sur des horloges atomiques de haute précision qui n'existent que parce que nous pouvons comprendre leur principe grâce à la physique quantique.

L'effet tunnel du stockage Flash repose également sur la mécanique quantique. En résumé: sans mécanique quantique, cet article ne serait pas écrit sur un ordinateur ici, ni transmis à vous via Internet sur une disque dur SSD, et vous n'auriez même pas un (payant ou rapide) ordinateur. Il est alors inutile d'en parler pour un smartphone.
Dans la mécanique quantique il y a cependant des événements aléatoires qui sont en principe imprévisibles – même si on connaît toutes les informations disponibles sur un système quantique.
Source: Hasard quantique, police d'impression ajoutée. Autres sources: Werner Heisenberg, Albert Einstein etc.
Il va même jusqu'à ce qu'il n'y ait pas de vide parfait . Car cela violerait la relation d'incertitude de Heisenberg.
Si vous voulez en savoir plus: Werner Heisenberg, Niels Bohr, Richard Feynmann et Albert Einstein ont écrit des livres compréhensibles à ce sujet, auxquels d'autres n'ont en principe pas grand-chose à ajouter.
L'intelligence est basée sur un réseau neuronal
Évidemment, l'intelligence peut être représentée de manière appropriée. Mais un réseau neuronal s'est révélé particulièrement efficace. Il est utilisé dans votre cerveau comme dans le cerveau artificiel de la AI.
Les réseaux neuronaux ne traitent que des chiffres, rien d'autre.

Tous les signaux se posent dans votre cerveau sous forme de valeurs analogiques qui se manifestent en courant et tension. Potentiels d'action dans les neurones transmettent les signaux électriques (traitement "invisibles").

À un moment donné, il y a une "dépense". Sa bouche bouge parce que les muscles correspondants ont reçu l'ordre numérique du cerveau via la moelle épinière. Les chiffres sont des courants et des tensions.
Les signaux analogiques peuvent être convertis en signaux numériques. Ce faisant, on perd un peu de précision, car les signaux analogiques sont continus et les signaux numériques sont discrets. Continu signifie qu'il y a par exemple un nombre illimité de chiffres entre 0 et 1. Discret signifie qu'il n'y a qu'un nombre limité de chiffres entre 0 et 1. Le nombre de chiffres que cela représente dans le système numérique dépend de la précision utilisée. Il est facile de comprendre qu'il n'est pas décisif qu'il y ait une infinité de nombres entre 0 et 1 ou "seulement" 100 000 milliards de nombres. La perte de précision lors de la conversion de signaux analogiques en signaux numériques est infinitésimale. Les systèmes analogiques et numériques peuvent donc être considérés comme équivalents à cet égard, comme le prouvent également les systèmes d'IA actuels, qui sont souvent bien supérieurs à l'homme (à l'exception de vous, bien entendu).
Tout est un nombre
Les modèles de langage reposent sur des tokens. Les tokens sont convertis en nombres. Pour cela, on utilise un dictionnaire. C'est si simple que l'on n'a pas vraiment besoin d'en discuter. Voici un extrait du dictionnaire public disponible pour GPT-2:

L'étrange "G" placé devant certains tokens est un signe distinctif qui indique que le tokens en question doit former le début d'un mot. En revanche, tous les tokens qui ne portent pas cette marque ne peuvent pas être placés au début d'un mot. Le dictionnaire de GPT-2 compte 52.000 entrées.
Tous les modèles linguistiques open source ont un dictionnaire de ce type, que vous pouvez télécharger et consulter sous forme de fichier texte.
Comment ça se passe avec les images ? Vous connaissez Dall-E ou Midjourney. La procédure est la suivante:
- Votre texte (prompt) est converti en chiffres et introduit dans le modèle IA de DALL-E.
- DALL-E traite ces chiffres via un réseau neuronal dans lequel on ne calcule qu'avec des chiffres.
- Au final, le résultat est constitué de chiffres. Ces chiffres sont interprétés comme des pixels.
Un point d'image s'appelle Pixel. Avec un canal de couleur RGB et une profondeur de couleur de 24 bits, un pixel a 3 octets: 1 octet pour le rouge, 1 octet pour le vert et 1 octet pour le bleu. Chaque octet peut prendre des valeurs entre 0 et 255. Un pixel se compose ainsi de trois nombres.
Et qu'en est-il de la parole, c'est-à-dire des signaux audio ? Un fichier MP3, ou même votre voix enregistrée, est composé de vibrations ("forme d'onde"). Votre cerveau traite (probablement) deux canaux: Un canal pour l'oreille gauche, un autre pour l'oreille droite. En matière de home cinéma, vous connaissez le 5.1 ou quelque chose de similaire. Le 5 représente les 4 haut-parleurs d'angle et le haut-parleur central. Le 1 représente le caisson de basses. Les signaux audio peuvent donc, comme le montrent votre chaîne hi-fi ou votre téléphone portable, être convertis en chiffres.
Tous les autres signaux peuvent également être convertis en nombres. Au thermomètre, c'est la température sous forme de valeur numérique, au sensoreur de tremblement de terre, c'est la force du séisme (environ sur l'échelle de Richter). D'autres signaux sont déjà numériques. Prenez par exemple une feuille d'Excel contenant des chiffres de chiffre d'affaires.
Tous les signaux peuvent être convertis en chiffres.
Les instructions de commande, en revanche, peuvent être exécutées en envoyant des nombres aux actionneurs.
Un actionneur, comme votre bouche ou votre main, est commandé en envoyant des chiffres à l'actionneur. C'est tout. Où est l'ingrédient secret ici ? Il n'y en a pas. Le fait que des processus chimiques soient également impliqués est un détail qui n'est apparemment pas nécessaire et qui est dû à la nature des systèmes biologiques. Si vous êtes d'un autre avis, il serait bon que vous apportiez quelques arguments à ce sujet.
Opinions sur les statistiques
Les opinions ne sont pas de véritables preuves. Elles ne doivent être indiquées ici que pour que personne ne pense que l'auteur est seul avec son opinion.
Avis des autres
D'un entretien de 30 minutes avec un employé de DEEPL en novembre 2024 est ressorti: L'employé est informaticien et comprend la fonction technique des modèles de langage. Son domaine d'expertise est la linguistique, ce qui n'est pas surprenant pour DEEPL. Il convient avec l'auteur que la statistique est également une base de l'intelligence humaine. Il voit aussi que les robots deviennent de plus en plus puissants. Que tous les informaticiens ne partagent pas ces intuitions, cela montre l'exemple ci-dessus avec le papagai des tokens (le terme provient d'un autre informaticien qui n'a peut-être pas encore trouvé la limite).
Maximilian Wanderwitz est professeur de droit économique et du droit des technologies de l'information. Il publie beaucoup sur le thème de l'intelligence artificielle. Après sa conférence le 26 novembre 2024 à Mayence, il a été interrogé par l'auteur sur son opinion. M. Wanderwitz a confirmé que son point de vue est également celui-ci selon lequel la statistique est un élément important de l'intelligence humaine et qu'il la voit comme analogue à l'IA.
Un employé de T-Systems, qui est responsable des systèmes numériques dans son entreprise, a confirmé cela le 26.11.2024: Il voit les statistiques comme un élément de l'intelligence humaine tout autant que dans l'intelligence artificielle.
Sam Altmann, co-fondateur d'OpenAI voit la puissance de l'intelligence artificielle comme si grande que l'IA surpassera l'homme de manière inimaginable. "Inimaginable" signifie ici "de manière incroyablement éloignée". Surpasser l'intelligence avec quelque chose autre qu'une intelligence semble difficile à imaginer.
Définition de l'intelligence (artificielle)
L'auteur propose (depuis le 03.04.2024) la définition suivante de l'intelligence artificielle:
On appelle Intelligence Artificielle un système artificiel qui tente, résoudre un problème même avec une spécification floue d'une manière non précisément définie, orientée vers la solution et en combinant des connaissances existantes avec de nouvelles et en tirant des conclusions.
Définition du terme "intelligence artificielle". Source: Klaus Meffert, dr-dsgvo.de
Vous pouvez définir vous-même ce qu'est un système artificiel. Cela n'a pas d'importance. Les 27 États membres de l'UE voient les choses différemment, en moyenne. Cette moyenne est appelée processus démocratique. L'UE considère qu'une machine est une condition préalable à l'IA. Cette restriction est inutile et arrogante. Il s'est également avéré que le diesel pouvait être respectueux de l'environnement. L'exclure au préalable était inutile et erroné.
Qu'est-ce que l'intelligence ? La même chose, sauf que l'intelligence n'est pas (nécessairement) artificielle. On obtient donc la définition suivante:
On appelle Intelligence un Système qui tente, résoudre un Problème même avec une définition floue d'une manière non précisément définie, orientée vers la solution et en combinant des connaissances existantes avec de nouvelles et en tirant des conclusions.
Définition du terme "intelligence". Source: Klaus Meffert, dr-dsgvo.de
La définition de l'intelligence est identique à celle de l'IA, à l'exception de l'adjectif "artificielle".
Votre avis
Vous pensez que l'IA se base "uniquement" sur des statistiques et qu'elle n'est donc pas un système intelligent ? Dans ce cas, il serait bien de savoir sur quel principe, si ce n'est les statistiques, l'intelligence humaine est basée. Votre définition de l'IA ou de l'intelligence sera volontiers prise en compte si vous en avez une autre que celle mentionnée ci-dessus et si vous la trouvez meilleure. En outre, il serait bon de savoir où se situe l'argument lorsque quelqu'un dit: "L'IA est basée sur les statistiques". C'est vrai, mais où est l'argument ?
Résumé
Les statistiques sont à la base de notre existence. La meilleure théorie dont nous disposons est sans doute la théorie quantique. Elle décrit notre réalité d'une manière extrêmement précise. Douter de la physique quantique, c'est nier sa propre existence.
Parce que la simplicité est (trop) facile ?
La raison principale pour laquelle certains pensent que les statistiques en tant que mécanisme sont trop simples pour produire de l'intelligence.
Parce que tout simplement, c'est tout simplement. Nous devons nous défaire de l'idée que des mécanismes incroyables comme ce que nous appelons l'intelligence doivent être basés sur des principes compliqués. Le fait qu'un système ne soit pas assez compliqué n'est pas un argument pour dire que ce système ne peut pas être performant.
L'intelligence est en son essence très simple. Elle repose (d'habitude) sur un réseau neuronal qui traite des nombres et apprend à l'aide d'exemples. Les exemples sont des paires de "est" (entrée) et "doit être" (sortie), ou aussi seulement des "paire est" (par exemple, des textes allemands), qui sont considérés comme corrects.
Il est vrai que la langue allemande (ainsi que de nombreuses autres langues dans le monde) est basée sur des statistiques. Or, le fait est que le texte peut être converti en chiffres. Il en va de même pour les images, la parole et les autres valeurs sensorielles. Les réseaux neuronaux ne calculent jamais qu'avec des chiffres. Il n'y a pas de texte, de son ou d'image dans votre cerveau, mais uniquement des chiffres.
Il est vrai que nous (vous compris) apprenons par exemple la langue et la grammaire allemandes à travers des exemples, tout comme l'intelligence artificielle. Pour cela, on utilise un mécanisme appelé Attention. Dans l'IA, il s'appelle "Attention". Il est cependant possible de faire sans Attention, comme le montrent les derniers développements techniques. C'est également indifférent de savoir comment se crée l'intelligence, car comme souvent, il n'y a pas qu'un seul moyen d'atteindre un objectif.
La manière dont un objectif ou l'intelligence est atteint n'a aucune importance (sur le long terme).
Certaines approches sont toutefois plus efficaces que d'autres.
Les systèmes d'IA apprennent généralement (encore) à partir de données fournies par l'homme. Internet en est une grande source. Cependant, les robots apprennent comme les humains s'ils ont un cerveau d'IA avec eux. Ils peuvent apprendre à partir d'exemples tirés de l'environnement expérimenté. Ces robots existent déjà. Ce n'est pas une théorie, mais une réalité. Bientôt, des robots ménagers et autres assistants robotiques de la vie quotidienne seront disponibles pour quelques milliers d'euros.
L'idée que l'intelligence artificielle est quelque chose de qualitativement différent de l'intelligence humaine conduit à l'irréalité. Même si AI était une très bonne simulation d'intelligence: Qu'est-ce que cela change?
Utilisez AI comme un collaborateur performant dans votre entreprise. Les cas d'application sont divers ! La AI fonctionne le mieux pour des cas d'application concrets.
Mise à jour: modèle linguistique européen Teuken
Difficile à croire, mais vrai. Le modèle linguistique européen appelé Teuken vient d'être publié (26.11.2024).
Les premiers tests sont très prometteurs. Dans un exemple pratique, on montre ce que Teuken peut faire. Pour cela, le premier partie de cet article a été introduit dans Teuken-LLM et devait être résumée. La tâche était une résumé en 3 phrases. Voici le résultat:
Phrase 1: Les modèles linguistiques tels que GPT-3 sont basés sur la détermination et la prononciation du mot le plus probable par rapport au mot généré jusqu'à présent.Phrase 2: Les jetons sont un moyen de représenter des mots ou des phrases plus longs de manière plus condensée. Ils peuvent également représenter des informations sémantiquement plus complexes.Phrase 3: L'argument selon lequel l'IA ne traite pas de données personnelles est faux et révèle un problème fondamental de compréhension de l'IA.Phrase 4: L'homme peut être qualifié de "perroquet à jetons", car il démontre la répétition de ce qui lui a été enseigné, dans des données d'entraînement.Phrase 5: La grammaire allemande est basée sur des probabilités. Ceci est intuitif pour l'homme et est utilisé inconsciemment lors de l'apprentissage de la langue.Phrase 6: L'approche par transformateurs a été une percée dans l'IA, permettant même aux profanes de comprendre les bases du traitement du langage.Le texte explique différents aspects du modèle linguistique GPT-3 ainsi que de la grammaire allemande.>>> ; cela fait 6 phrases. je veux un résumé en 3 phrasesC'est vrai, voici la version résumée:1. Les modèles linguistiques comme GPT-3 utilisent des tokens au lieu de mots.2L'homme peut être qualifié de "perroquet à token", car il démontre la répétition de ce qui lui a été enseigné dans des données d'entraînement.3. La grammaire déductive est basée sur des probabilités et constitue un processus de base de l'apprentissage du langage pour les humains, mais qui se produit souvent de manière inconsciente.Tout d'abord, Teuken a livré 6 jeux au lieu de 3. Mais ces 6 phrases étaient très bonnes. La demande faite à Teuken de fournir un résumé en 3 phrases a ensuite été satisfaite. Le résultat est très satisfaisant, même s'il y a une petite faute d'orthographe.
Ce qui est frappant: Teuken place "phrase 1", "phrase 2", etc. devant les phrases générées. D'après les observations de l'auteur, d'autres modèles d'IA ne l'ont pas fait jusqu'à présent.
Le logiciel utilisé est Teuken-7B-instruct-commercial-v0.4 d'openGPT-X. D'où la mention de la licence:
Lizenzangabe (Teuken commercial):
Copyright 2024 openGPT-X
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.
Messages clés de cet article
Les modèles linguistiques ne travaillent pas simplement mot par mot, mais avec ce que l'on appelle des tokens. Ceux-ci sont comme des unités plus petites de mots ou de syllabes.
L'être humain peut également être qualifié de perroquet à jetons, car, à l'instar de l'IA, nous apprenons et appliquons des règles de langage basées sur les probabilités.
La désintégration radioactive est un processus aléatoire dont la demi-vie est calculée comme une moyenne statistique. Il n'est pas possible de prédire quand un atome individuel va se désintégrer.
La physique quantique fait partie de notre quotidien, par exemple avec les lasers, le GPS et les mémoires flash.
Sans la physique quantique, il n'y aurait pas d'ordinateurs ni d'Internet.
En physique quantique, les événements sont imprévisibles et le vide parfait ne peut pas exister.
L'intelligence est représentée dans les systèmes d'IA à l'aide de réseaux neuronaux qui ne traitent que des chiffres.
Les signaux analogiques peuvent être convertis en signaux numériques avec une très faible perte de précision.
Tout est un nombre: les modèles linguistiques comme GPT-2 utilisent un dictionnaire de 52.000 entrées pour traduire le texte en chiffres. Les images sont également converties en chiffres (pixels) par des modèles tels que DALL-E. Les signaux audio et autres valeurs de mesure peuvent également être représentés sous forme de chiffres. Les actionneurs (comme les membres humains) sont commandés par des nombres.
Les statistiques sont une composante essentielle tant de l'intelligence humaine que de l'IA.
Conclusion en bref
L'IA est un système qui résout des problèmes et traite de nouvelles informations. Elle apprend à partir d'exemples et travaille avec des chiffres. Il en va de même pour l'intelligence humaine.
Les statistiques sont importantes pour notre monde et c'est la théorie quantique qui le décrit le mieux. L'intelligence a une structure simple: elle est basée sur des réseaux neuronaux qui traitent des nombres.
Dans la pratique, l'intelligence artificielle n'est pas différente de l'intelligence humaine – elle peut être tout aussi utile. Les entreprises devraient utiliser l'IA pour gagner en efficacité.
Au-delà de ces messages clés


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
