Quels sont les principaux avantages de l'utilisation de systèmes d'IA propres par rapport aux plateformes comme ChatGPT ?

Des systèmes d'IA propriétaires offrent un contrôle total des données, ce qui garantit la sécurité et la protection de la vie privée. De plus, ils sont souvent plus rapides et plus efficaces, car ils sont adaptés aux besoins spécifiques de l'entreprise.

Quels risques sont associés à l'utilisation de plateformes d'IA tierces ?

L'utilisation de tiers apporte des risques tels que la perte de données, un manque de contrôle sur ces données et des informations potentiellement inappropriées ou obsolètes. De plus, des données confidentielles de l'entreprise peuvent être compromises et utilisées à des fins de formation auprès de ces fournisseurs.

Comment la vitesse et l'efficacité des systèmes d'IA propriétaires diffèrent-elles des solutions externes?

Des systèmes d'IA propriétaires sont généralement plus rapides et plus efficaces, car ils ne sont pas limités par la portée des plateformes externes et peuvent traiter les données directement sur site. Cela entraîne une vitesse de réaction plus élevée et des temps de latence réduits.

Comment fonctionne la recherche sémantique dans le contexte de ce système ?

La recherche sémantique comprend le sens derrière les termes de recherche et fournit des réponses en utilisant ses propres mots, au lieu de simplement trouver des correspondances. Elle utilise un vocabulaire de termes fréquemment utilisés pour corriger les erreurs d'orthographe et fournir des résultats pertinents.

Quelles sont les différences entre la recherche sémantique et la recherche effectuée via un moteur de recherche traditionnel ?

La recherche sémantique est moins sensible aux fautes de frappe et comprend la question, tandis qu'une recherche traditionnelle ne recherche que des correspondances exactes. La recherche sémantique corrige les erreurs et fournit ainsi des réponses plus précises, tandis que la recherche traditionnelle échoue souvent lorsque le terme de recherche ne s'y trouve pas exactement.

Quels sont les avantages d'un système d'IA propriétaire pour une entreprise ?

Un système d'IA propriétaire permet un contrôle total des flux de données, réduit la dépendance vis-à-vis des plateformes externes et offre ainsi plus de flexibilité et de sécurité pour les données sensibles de l'entreprise.

Comment l'IA peut-elle aider les entreprises dans le traitement des données ?

Les systèmes d'IA peuvent trouver et utiliser des informations plus efficacement grâce à la recherche sémantique dans les documents d'entreprise, ce qui permet d'optimiser les processus manuels et d'accélérer la collecte d'informations.

L'intelligence artificielle: Les avantages des systèmes de AI propres aux entreprises, avec exemple pratique

Les données sont un précieux matériau, surtout lorsqu'il s'agit de secrets commerciaux. Mais même les données confidentielles et personnelles ne devraient pas être communiquées à des tiers (comme ChatGPT) pour des raisons juridiques. Les propres systèmes AI offrent en outre le bénéfice d'une grande flexibilité et d'un ajustement précis aux besoins concrets. Un rapport de pratique.

Introduction

Nous avons un slogan d'un opérateur de téléphonie mobile qui dit: "C'est simple, c'est simple". Mais pour les applications datenintensives, on pourrait dire que le nouveau n'est pas vrai. La protection des données ne préoccupe pas beaucoup de monde. Lorsqu'il s'agit des données des employés, des données protégées par contrat comme Confidentiel, des fondements de brevet ou d'autres secrets commerciaux, les entreprises sont plus sensibilisées. Finalement, personne ne veut avoir des ennuis juridiques. Le désir de faire sortir le savoir interne de l'entreprise dans le monde est probablement pas aussi répandu.

Intelligence artificielle: L'approche juridique vérifie ce qui est peut-être permis et éclaire les risques. L'approche technique fournit des systèmes données-amicale et résout de nombreuses questions juridiques par elles-mêmes.
Agir de manière constructive plutôt que d'argumenter est une bonne stratégie, je trouve. Les juristes ont toujours encore suffisamment à faire.

C'est tout de même simple d'utiliser ChatGPT. Certains s'y prennent très facilement, au détriment du bénéfice. On peut déjà voir là que réfléchir est plus difficile que faire des choses fausses ou inefficaces. Même de grands efforts sont acceptés si les efforts ne sont pas trop importants, mais ils se produisent souvent. Il vaut mieux 100 fois une petite peine avec un grand total d'efforts que 1 fois une grande peine avec un total beaucoup plus faible.

Il y a peu de temps, Zoom a formulé de nouvelles conditions d'utilisation pour son logiciel de conférence vidéo. En conséquence, Zoom se donne le droit de utiliser quasi librement les données collectées lors des conférences vidéos sur Zoom. Cela inclut également la diffusion de vos données, y compris les transcriptions et l'utilisation à des fins d'apprentissage automatique („formation d'une intelligence artificielle“). C'est quelque chose qui ne se serait pas produit avec une solution amicale aux données en Allemagne. De même, ce n'aurait pas été un problème avec votre propre système. Maintenant, tous les utilisateurs de Zoom ont potentiellement un problème.

Tous les utilisateurs de Zoom ont potentiellement un problème, car ils préfèrent supposément des systèmes tiers gratuits plutôt que des solutions données-amicales.
Merci à Zoom pour l'aide à la décision.

Si on ne se facilite pas la tâche, au moins utilise-t-on Interface ChatGPT à travers un programme personnel. Cela permet de créer de nombreuses applications. ChatGPT apporte en outre, outre des capacités surprenantes, plusieurs problèmes incurables:

ChatGPT est très lent.
La plupart des données de la ChatGPT-IA sont sans intérêt pour les applications d'entreprise (charge utile gênante, encourage les hallucinations, ralentit le système, augmente la vulnérabilité aux erreurs).
Toutes les données atterrissent chez OpenAI et donc chez Microsoft.
Les données ne sont pas sécurisées sur ChatGPT (voir opt-out récemment ajouté – au lieu d'une autorisation, fuite de données, politique des entreprises américaines etc.).
ChatGPT repose sur des connaissances générales dépassées.
ChatGPT ne connaît pas les documents de votre entreprise et espérons qu'elle n'en saura jamais rien.
ChatGPT coûte de l'argent, et ceci en fonction du nombre de pièces de texte (Tokens) traitées. Un plus grand PDF chargé et analysé vous fait déjà perdre de l'argent. Une programmation incorrecte (boucle infinie ou récursivité) détruit rapidement tout budget.
ChatGPT n'est pas extensiblement modifiable.

Les données que vous fournissez seront-elles également utilisées pour l'entraînement du modèle de l'intelligence artificielle d'un tiers ou pour la réglage fin ? Alors, la protection des données et la confidentialité ne sont plus garanties. Un modèle linguistique apprend en effet non seulement la grammaire et la structure d'une langue, mais il acquiert également des connaissances. Les inconvénients qui en découlent sont plutôt gênants et contraires à l'intérêt que problème juridique. Cela signifie en même temps que ces problèmes ne peuvent pas être résolus par le droit.

Intelligence artificielle hors ligne en tant que solution pour les entreprises et les administrations.
Informations supplémentaires.

On peut dire le même chose des Générateurs d'images comme Dall-E ou Midjourney. Beaucoup de ces générateurs se basent sur l'approche appelée Stable Diffusion. Presque tous les procédés pertinents de ce type utilisent la base de données LAION. Cette dernière a utilisé le Common Crawl pour trouver des sites Web qui intègrent des images avec leur description. Le Common Crawl est à son tour un grand dépannage presque de toutes les pages Web. Si l'une de vos images se trouve dans cette base de données, alors elle n'y est pas en pureté. Au contraire, votre image d'entreprise (logo, image de produit etc.) s'y trouve sous forme de stockage structuré dans les neurones artificiels du modèle de données AI d'un tiers. Récupérer l'image là-bas est à peu près impossible. Il faudrait plutôt recalculer le modèle AI. Mais il est incertain que son propriétaire fasse cela. En effet, la formation du modèle est une tâche informatique très exigeante avec une collecte de données très complexe.

Systèmes d'intelligence artificielle propres à l'entreprise

Tous les problèmes mentionnés ci-dessus disparaissent lorsque votre entreprise utilise un Système d'intelligence artificielle propre à lui-même. Ce type de système, que j'appelle des systèmes de IA locales ou autarciques, ne nécessite pas d'accès à Internet et pourrait même être placé sous votre bureau.

Ces avantages ont des systèmes d'intelligence artificielle propres aux entreprises:

Contrôle complet des données: Vous déterminez quelles données d'entraînement ou quels modèles de IA pré-formés sont utilisés.
Posez des questions à vos données et non celles du web: Alimentez vos documents et médias d'entreprise.
Haute vitesse: En tout cas, votre système sera plus rapide que ChatGPT si vous le voulez. Le nombre de vos utilisateurs sera nettement inférieur à celui des plateformes AI populaires. De plus, vous pouvez réduire considérablement la quantité de données.
Adaptabilité quelconque: Ensuite plus bas, en savoir plus à ce sujet.
Une grande variété d'applications: Recherche sémantique, compréhension de texte, assistants question-réponse, générateurs d'images,transcription audio, et bien plus encore.

Voici un exemple concret de ce que l'on peut faire avec un système local pour votre entreprise. L'exemple fonctionne sur un serveur à bas coût et il est déjà opérationnel. Cependant, il est encore en développement et on peut s'attendre à une amélioration notable par rapport à la version actuelle. La mise au point finale n'est pas un problème majeur et cela tient uniquement à ma priorisation.

Recherche sémantique pour documents d'entreprise

Recherchez vos documents, votre système de tickets (par exemple Jira), vos pages intranet et bien d'autres choses avec un système intelligent. Faites de tous vos documents une base de connaissances et réunissez votre connaissance entreprise dans un cerveau électronique.

Pour les types de documents standard tels que PDF, des routines d'importation peuvent être utilisées facilement sans que cela entraîne pour vous des coûts supplémentaires. La cloud Adobe devient inutile en tout cas dans ce point. Tout ce qui peut être exécuté automatiquement dans votre entreprise contribue à une grande actualité et plus de temps libre pour ceux qui ne sont pas des machines.

Une recherche de l'intelligence artificielle n'est pas une machine de recherche, mais une recherche sémantique. Les intelligences artificielles sont très bien dans la recherche structurée, sémantique ou peut-être même floue. Elles sont cependant mauvaises pour effectuer des recherches exactes, bien que cela soit en principe possible. C'est d'ailleurs analogue à l'être humain.

Je suggère donc une approche en plusieurs étapes que ChatGPT ne peut même pas suivre:

Optimisation: Reconnaissance d'erreurs de frappe ou de mauvais synonymes dans les mots-clés de recherche. Ainsi, "CommonCrawl" devient une proposition pour un terme probablement voulu.
Recherchez avec une rechercheur classique. C'est surtout utile lorsque vous cherchez à "Common Crawl" . Une intelligence artificielle est si sous-équipée pour ce type de recherche qu'elle fournit des résultats médiocres.
Recherche sémantique: Ce type de recherche convient particulièrement bien aux questions posées en langue naturelle. Un exemple: „Peut-on déterminer l'emplacement d'un serveur à partir de son adresse IP?
Réponse à une question posée en propres mots. Par exemple, en réponse à la question 3, ma AI répond: «En fonction de l'adresse IP, il est impossible d'identifier avec certitude l'emplacement d'un serveur, car la liaison entre l'adresse IP et le serveur peut changer à tout moment. Il existe cependant des méthodes pour identifier l'emplacement d'un serveur, comme l'utilisation de la géolocalisation IP ou la comparaison de métadonnées». La AI de Bing répond en revanche faussement avec «Oui» et cite des sources qui justifient la réponse fausse.
Transparence: Puisque une intelligence artificielle peut donner des réponses fausses, comme le montre la recherche Bing de Microsoft, la navigation utilisateur devrait être conçue en conséquence. Je ne parle pas seulement d'indications, mais aussi de l'affichage des sources qui ont conduit au résultat et bien plus encore.

Pour la recherche dans ce blog, j'utilise depuis peu un très bon marché serveur qui n'a même pas une carte graphique capable de traitement d'intelligence artificielle. Les cartes graphiques performantes (GPUs CUDA-capables) de Nvidia sont utilisées pour les applications d'intelligence artificielle car elles peuvent effectuer des calculs beaucoup plus rapidement que les processeurs usuels (CPUs).

Si mon serveur est actuellement disponible, un clic sur les liens mentionnés dans les points 1 et 2 ci-dessus fournit des résultats réels de ma recherche. La recherche sémantique peut également être effectuée, mais je n'ai pas loué un serveur qui soit en ligne. Au lieu de cela, le serveur AI (serveur numéro deux, différent du mauvais serveur mentionné ci-dessus) est utilisé pour les travaux de développement.

Les résultats suivants sont obtenus par ma recherche au niveau 1 lorsque vous vous trompez et que cela est reconnu:

Recherche avec erreur d'écriture. Un espace a été oublié. (l'image a été traduite automatiquement).

Il n'y a rien d'excitant à corriger une petite erreur de frappe. Cependant, la recherche intégrée à WordPress, qui a nécessité plusieurs années de travail de développement, ne donne aucun résultat si le mot-clé de recherche n'apparaît pas dans les articles du blog.

Ma recherche détecte quelques erreurs d'écriture. À cette fin, un vocabulaire de termes a été mis en place qui apparaît (presque) dans tous mes contributions. Seuls ces mots sont "corrects" ou appropriés pour une recherche sur mes documents. En guise d'optimisation, un terme de recherche incorrect est corrigé et inscrit dans le champ de recherche sous sa forme probablement la plus correcte. Si WordPress ne trouve pas de résultat, un résultat direct pour le terme de recherche corrigé est affiché. Sinon, une remise constructive avec l'indication "Pensiez-vous" est donnée.

Si un mot-clé ne contient pas d'espace, alors il est évident qu'il s'agit d'une question à laquelle une IA ne pourrait pas répondre de manière compétente. Ainsi, pour ce cas-là, on ne lance pas non plus une recherche sémantique, mais une normale recherche.

Si le mot-clé est plus long, il s'agit peut-être d'une question. Tout d'abord, les résultats de la recherche WordPress sont affichés (si disponibles). Ensuite, les résultats de la recherche AI sémantique suivent. Voici un exemple:

Résultat pour une question complexe. (l'image a été traduite automatiquement).

Il est étonnant que la recherche classique trouve un résultat. C'est toutefois probablement le cas parce que ma question est souvent utilisée pour démontrer les capacités de performance de mon IA. Le résultat de la recherche affiche transparentement qu'un résultat provient de la recherche classique et 18 résultats ont été trouvés par la recherche floue. La recherche floue est une machine à recherche vectorielle sur matériel minimal.

Comme exemple de contre-exemple, voici le résultat de la recherche sur Bing:

Réponse fausse sur Bing, date du 28.07.2023. (l'image a été traduite automatiquement).

Comme on peut le voir, Bing fournit la réponse "Oui" à la question posée. La réponse est fausse car les adresses IP ne se réfèrent souvent pas à un serveur spécifique et même si c'est le cas, cette correspondance peut changer en une seconde.

WordPress ne trouve pas de résultat pour des questions d'orthographe comme celle-ci: "Sont les Cokies des données personnelles ?" Le mot "Cookies" a été écrit ici avec un seul "o" par erreur. En revanche, en utilisant la recherche sémantique sur un modèle linguistique, on trouve le résultat:

La recherche sémantique trouve des correspondances même avec des fautes d'orthographe dans le mot de recherche principal. (l'image a été traduite automatiquement).

La recherche de la AI est avec ce coup réussie. Ce qui ne se déduit pas clairement car encore non programmé: ma recherche de la AI n'apporte pas seulement un document comme résultat, mais peut aussi identifier l'emplacement du texte dans lequel il a été trouvé avec une précision raisonnable. Puisque pour la recherche est créée un index sur les documents d'une telle manière que chaque document est divisé en morceaux faciles à gérer. Ces morceaux peuvent être mieux recherchés qu'un long texte. J'aurais donc pu afficher le morceau pertinent dans les résultats de la recherche, au lieu de montrer l'intégralité du document.

Le contribution trouvée répond très exactement à la question, comme le montre l'extrait du texte de contribution ci-dessous:

Extrait du résultat qui donne la réponse à la question posée. (l'image a été traduite automatiquement).

La prochaine étape est de donner la réponse directement dans les résultats de recherche, et ce de manière abstraite. Abstrait signifie que l'on donne une synthèse en nouveaux mots. C'est ainsi que procède également l'homme. Une étape précédente serait la surnommée extraction, qui ressemble à un citation.

Récemment, j'ai décrit un Showcase déjà mis en œuvre pour un assistant question-réponse [5] pour des documents propres à l'entreprise. Vous trouverez les détails dans le billet lié.

Résumé

Avec un système de AI interne à l'entreprise, on peut résoudre de nombreux cas d'utilisation. De tels systèmes sont Amicalement disposé. Ils permettent une pleine maîtrise des flux de données.

L'exemple avec la recherche de documents n'est qu'un des nombreux cas d'utilisation. La logique de recherche n'est pas encore complètement programmée, mais elle montre déjà ce qui est possible. Elle fonctionne sur un serveur que l'on peut louer pour "un pomme et un œuf" auprès d'un fournisseur allemand, si aucun serveur propre ne s'offre. Les possibilités de personnalisation en fonction des besoins individuels sont presque illimitées.

Qui veut investir quelques centaines d'euros par mois obtient un serveur AI très performant. Avec cela, on peut utiliser des modèles de langage développés en langue allemande. Mais il est également possible de générer massivement des images. Au lieu de créer cinq fois une image avec DALL-E jusqu'à ce qu'un résultat satisfaisant soit obtenu, laissez simplement générer des centaines d'images. Votre AI apprendra même quelles images vous plaisent et triera les mauvais résultats à l'avenir.

Comme pour tous les Cloud-Diensts, les systèmes de IA tiers ne sont pas seulement problématiques en termes de confidentialité, mais aussi en ce qui concerne les coûts (Pay per use). Avec des systèmes locaux qui appartiennent à votre entreprise, il n'y a pas ces coûts. Vous payez uniquement le prix mensuel pour votre serveur, qui peut être soit un loyer ou des frais de fonctionnement. Ces coûts sont raisonnables et attractifs pour tout le monde qui a vraiment besoin d'un tel système IA. Sans grand avantage, il n'est pas vraiment utile d'utiliser ChatGPT.

Si le secret et la confidentialité ne constituent pas un problème, vous pouvez tout au moins y réfléchir pour utiliser programmation l'interface ChatGPT. L'intelligence artificielle rend en effet, quelle que soit la manière dont elle est utilisée, des problèmes économiquement résolubles qui n'étaient jusqu'à présent ni résolus ou résolus avec un effort considérable.

N'hésitez pas à me contacter si vous souhaitez mettre en place un système de AI pour votre entreprise ou utiliser une interface d'un tiers pour réduire les tâches manuelles. Lorsque l'on utilise des interfaces avec des systèmes de AI de tiers, au moins certains des problèmes liés aux données peuvent être atténués. Par exemple, les données personnelles peuvent être automatisées et modifiées à un certain niveau.