Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Showcase IA hors ligne : numérisation de documents

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Article au format PDF (uniquement pour les abonnés à la newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

La numérisation de documents fonctionne aussi bien que l'IA hors ligne. L'IA hors ligne est une IA fonctionnant en local, souvent meilleure que ChatGPT, respectueuse des données et peu coûteuse. Cela inclut la reconnaissance de textes et d'images ainsi que la recherche sémantique dans ces informations extraites. Le showcase montre des détails concrets.

Qu'est-ce que l'IA hors ligne ?

Certains comprennent peut-être mieux "GPT hors ligne". Toutefois, l'IA hors ligne n'a rien à voir avec OpenAI et d'autres fournisseurs tiers.

Une intelligence artificielle hors ligne fonctionne sur un ordinateur propre. Cela peut être soit une matériel acheté, soit un matériel loué. Hors ligne signifie que l'intelligence artificielle n'envoie pas de données à des tiers. L'intelligence artificielle hors ligne peut accéder au Internet selon les besoins ou communiquer avec d'autres systèmes informatiques.

La AI hors ligne peut produire des résultats beaucoup meilleurs pour de nombreux cas d'utilisation, comme la numérisation de documents, comparés à ChatGPT et autres services cloud. Dans les entreprises, il s'agit souvent de milliers de documents. Les coûts associés aux services cloud sont souvent imprévisibles et coûteux pour de nombreuses requêtes. La AI hors ligne offre une tarification des coûts à la place unique. Le contrôle total des données est également un motif pour ne pas utiliser ChatGPT ou Microsoft Azure pour beaucoup d'entre eux.

L'IA hors ligne peut souvent faire plus que ChatGPT, elle est moins chère et offre un contrôle total des données ainsi que des possibilités d'accès en ligne.

Que signifie la numérisation des documents ?

La numérisation signifie le conversion d'informations analogiques en informations numériques. Souvent, il s'agit de la conversion de documents papier en images numériques (fichiers). Pour cela, on scanne ou photographie le document papier. Ensuite, on analyse l'image qui en est résultée (même lors d'un scan, une image est créée !).

L'exemple d'un document du Comité européen de la protection des données (EDSA) montre comment l'IA hors ligne peut aider à la numérisation des documents.

Un document PDF du Comité européen des données (EDSA) à titre d'exemple (image was automatically translated).

Les images ci-dessus représentent les pages d'un document PDF. Ces images sont obtenues soit en scannant un document PDF, soit en le transformant en pages individuelles.

Une fois que le document a été scanné (ou photographié), il est évalué avec l'IA hors ligne. Le texte du document est alors déterminé. Des procédés plus avancés reconnaissent également les images et leur contenu.

L'IA hors ligne permet même d'écrire sur des images. Voici une capture d'écran d'une diapositive sur l'IA hors ligne.

Exemple d'image pour la reconnaissance de contenus d'images par une IA hors ligne. Tiré d'une présentation sur le thème "IA hors ligne" (image was automatically translated).

L'IA hors ligne avait alors pour tâche de décrire ce que l'image représentait. Voici le résultat :

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

L'IA hors ligne fournit également la traduction française sur demande :

Un dessin noir et blanc d'un homme avec des cornes, manuel IKEA, comme un monstre de D&D, une image générée par IA

Pour ceux qui ont besoin de la version ukrainienne, turque, espagnole, italienne ou polonaise, l'IA hors ligne peut également les aider :

  • Ukrainisch: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
  • un dessin noir et blanc avec les oreilles d'un homme, guide IKEA, monstre D&D, une image créée en tant qu'AI_
  • Etchâtre en noir et blanc d'un homme à cornes, manuel IKEA, comme un monstre de D&D, une image générée par intelligence artificielle_
  • Italienisch: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
  • Polnisch: rysunek czarno-biały mężczyzny z rogami, instrukcja IKEA, jako potwór D&D, obraz generowany przez AI Polonais : dessin en noir et blanc d'un homme aux cornes, instruction IKEA, comme monstre de D&D, image générée par l'IA

Les traductions ont été vérifiées à l'aide de l'ancien Gold Standard, DEEPL, et reproduites ici sans modification.

L'étape suivante pourrait être la reconnaissance de sections/blocs.

Sections reconnues par l'IA dans le PDF (image was automatically translated).

Les blocs présentés dans l'illustration ont été reconnus et marqués automatiquement. Ils servent d'étape préliminaire à une reconnaissance performante des informations textuelles et visuelles.

L'illustration suivante montre combien d'informations peuvent être contenues dans de tels blocs.

Blocs détectés automatiquement par l'IA sur diverses pages d'un document PDF (extrait). Image was automatically translated.

Les extraits de texte présentés ont été reconnus automatiquement. L'utilisateur dispose désormais de plusieurs possibilités. Les informations peuvent être trouvées dans le texte continu tout autant que par recherche stricte. La recherche stricte identifie uniquement les correspondances pour des parties qui contiennent l'ensemble du mot clé recherché. Au lieu d'un mot-clé, on peut également poser une question au document. L'utilisateur ne voit finalement que sa barre de recherche (champ d'entrée) ainsi que les résultats. Les illustrations présentées plus haut ne sont visibles que sur demande.

Interroger ses propres documents : avec l'IA hors ligne, c'est non seulement plus possible qu'avec ChatGPT, mais aussi moins cher et avec un contrôle total des données.

En outre, il est également possible, par exemple, de trouver les pages sémantiquement similaires à une page de document donnée.

Dans cet exemple, les pages trouvées sont visuellement similaires à une page par défaut (1ère page en haut à gauche). Dans cet exemple, il y a similitude visuelle lorsque la boîte grisée se trouve également dans d'autres pages. C'est le cas dans les pages 3 à 8 (de gauche à droite, de haut en bas). Comme contre-exemple, la page 2 a été affichée comme page de texte optiquement non similaire.

Mais il est également possible d'effectuer des recherches sémantiques sur du texte. La recherche de documents et de leurs pages peut ainsi être effectuée de manière performante avec l'IA hors ligne. Par exemple, dans le document PDF numérisé susmentionné, la recherche a porté sur les "données personnelles".

Quelques-uns des résultats sont visibles ici :

Documents trouvés pour la recherche "données personnelles" (image was automatically translated).

Bien entendu, l'IA hors ligne peut afficher les résultats directement sous forme de texte. Pour l'exemple uniquement, les résultats ont été représentés sous forme de captures d'écran de la page.

Un résultat détaillé pour cette recherche est montré ici :

Une correspondance en détail : la recherche sémantique a compensé les imprécisions et affiche une probabilité de correspondance avec un marquage dans le texte (l'original est une image !). Image was automatically translated.

Sans effort supplémentaire, des occurrences signifiant la même chose mais utilisant une autre expression ont également été trouvées. Le flou entre "relatif à la personne" et "relatif à la personne" a été automatiquement compensé par l'IA. Cet exemple très simple peut se révéler presque aussi performant que souhaité.

Un exemple performant de recherche sémantique est le conseiller question-réponse pour le blog Dr. DSGVO décrit à.

Recherche de similitudes

Et si l'on pouvait trouver les images sémantiquement les plus proches d'une image ? Un ours est un ours, un chat est un chat. Peu importe que l'animal (ou l'objet, si d'autres images) en question soit grand ou petit, qu'il soit à gauche ou en haut de l'image, ou qu'il n'y ait que la tête ou un plan complet.

Pour les pages de documents, le résultat est tout aussi impressionnant :

Recherche inversée : pour une image (ici : une page de document), les exemplaires les plus similaires visuellement sont trouvés (image was automatically translated).

À droite de l'image, la page d'un document PDF pour laquelle des pages similaires doivent être trouvées. À gauche de l'image, les pages qui présentent une similitude visuelle. La similitude consiste ici en un flux de texte, mais surtout en un bloc sur fond gris. Si des images étaient visibles dans l'image de départ, elles auraient été prises en compte. Au lieu de cela, il aurait également été possible de trouver des documents similaires après le texte visible dans l'image. Les possibilités sont infinies.

Pour terminer, un exemple rapide pour montrer que les informations peuvent également être reconnues dans des images plus complexes.

L'image d'entrée est la suivante. Elle a été réalisée avec un vieux téléphone portable, en basse résolution et dans des conditions de faible luminosité :

Image d'une partie d'un pneu dans laquelle du texte doit être reconnu (image was automatically translated).

La AI hors ligne non entraînée a reconnu, marqué et extrait les informations suivantes en trois millisecondes sur un ordinateur portable :

Indications reconnues sur un pneu, bounding boxes insérées automatiquement (image was automatically translated).

Les indications du noyau ont été reconnues et leur position a été renvoyée. Ainsi, le numéro de série 49865 a pu être reconnu correctement et le numéro A055247 presque correctement (le "A" a été reconnu comme "4", ce qui est à peine reconnaissable même pour un être humain).

Comme on peut le voir, certaines données ne sont pas reconnues. Il existe plusieurs solutions pour y remédier :

  • Faire pivoter l'image automatiquement et refaire la détection
  • Comparaison sémantique des lettres et des chiffres avec l'IA hors ligne et le modèle d'IA entraîné une seule fois
  • Modèle d'IA entraîné avec des exemples de photos de pneus
  • Si trop peu d'exemples sont disponibles pour l'entraînement : Générer synthétiquement autant d'exemples que nécessaire avec une IA hors ligne + des méthodes traditionnelles (bruit, rotation de l'image, réduction de la qualité, …)

AI for your company

Your AI can do more than ChatGPT.
Benefits:
  • Powerful and optimizable
  • Full data control
  • Fast proof of concept
  • Inexpensive
Free initial consultation:   Mail

Il est donc possible de numériser des documents texte (qui peuvent également contenir des images) avec l'IA hors ligne. Il est également possible d'évaluer automatiquement les photos. Cela devrait être particulièrement intéressant pour les assurances. Les exemples collectés jusqu'à présent, souvent en centaines de milliers, peuvent être utilisés comme données d'entraînement confidentielles pour un système IA hors ligne. Si peu de données d'entraînement sont disponibles, il est possible de générer artificiellement des données d'entraînement. Là encore, l'IA hors ligne est utilisée et se réjouit déjà à l'idée de fonctionner sur votre serveur pendant des heures, tandis que vous profitez du week-end ou de la soirée.

Conclusion

Avec l'IA hors ligne, des documents de différentes sortes peuvent être numérisés. Les documents scannés ou photographiés sont analysés avec l'IA. Les informations du texte et de l'image sont extraites avec l'IA. Par exemple, les informations extraites peuvent ensuite être recherchées semantiquement, rédigées, traduites en une langue plus simple ou d'autres langues traduites.

Il est également possible d'effectuer une recherche par similitude avec des images : les images les plus similaires à une image de saisie sont trouvées. Et ce, d'un point de vue sémantique et non pas, comme "auparavant", en comparant des pixels.

La seule chose nécessaire pour la numérisation est maintenant un bon scanner ou un téléphone portable avec un appareil photo, selon l'application.

L'IA hors ligne maintient les données là où elles doivent être, c'est-à-dire dans votre entreprise. En outre, l'IA hors ligne offre la possibilité de se procurer des données sur Internet ou de communiquer avec vos autres systèmes informatiques.

Pour de nombreux cas d'application, les résultats sont bien meilleurs que ce que ChatGPT ne pourra jamais être. Le multilinguisme ne pose pas non plus de problème, même avec des dictionnaires propres à l'entreprise. Les termes techniques du secteur des assurances, de la médecine ou des sciences juridiques peuvent ainsi être pris en compte de manière adéquate.

Messages clés

L'intelligence artificielle hors ligne est une solution efficace et économique pour numériser des documents, offrant un meilleur contrôle des données que les services cloud.

L'IA hors ligne permet de comprendre et d'interroger des documents PDF, comme si c'était une recherche Google, mais avec un contrôle total sur vos données.

L'intelligence artificielle hors ligne permet de rechercher du texte et des images de manière efficace, même si elles sont complexes ou de basse qualité.

L'intelligence artificielle hors ligne permet de numériser et d'analyser des documents, y compris des images, directement sur votre ordinateur, offrant des résultats souvent supérieurs à ChatGPT.

Plusieurs langues peuvent être utilisées sans problème, même avec des dictionnaires spécifiques à l'entreprise.

A propos de ces messages clés

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

IA et intelligence : l'homme n'est-il pas aussi un perroquet à jetons ?