Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

Offline-AI Showcase: Digitalisering van documenten

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel als PDF (alleen voor abonnees van de nieuwsbrief)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

De digitalisering van documenten werkt uitstekend met Offline-AI. Offline-AI is een lokaal draaiende AI die vaak beter, datavriendelijker en goedkoper is dan ChatGPT. Hierbij hoort het herkennen van tekst en beelden, evenals de semantische zoekfunctie in deze afgeleide informatie. De showcase toont concrete details.

Wat is Offline-AI?

Misschien begrijpen sommigen beter "Offline-GPT". Offline-IA heeft echter niets te maken met OpenAI en andere derde partijen.

Een offline-AIdraait op een eigen computer. Dat kan zowel een gekochte hardware als gehuurde hardware zijn. Offline betekent dat de AI geen gegevens naar derden stuurt. De offline-AIkan op aanvraag toegang tot het internet hebben of met andere IT-systemen communiceren.

Offline-AI kan voor veel toepassingsgevallen, zoals bijvoorbeeld de digitalisering van documenten, ernstig betere resultaten produceren dan met ChatGPT en andere cloud-diensten. In bedrijven gaat het vaak om duizenden documenten. De kosten bij cloud-diensten zijn vaak onvoorspelbaar en bovendien duur bij veel aanvragen. Offline-AI biedt een gunstige kosten-flatrate. De volledige gegevenscontrole is voor velen eveneens een reden om ChatGPT of Microsoft Azure niet te gebruiken.

Offlines intelligentie kan vaak meer doen dan ChatGPT, is goedkoper en biedt volledige controle over de gegevens plus online-toegangs mogelijkheden.

Wat betekent digitalisering van documenten?

Digitalisering betekent het omzetten van analoog in digitaal materiaal. Vaak gaat het om het converteren van papieren documenten naar digitale afbeeldingen (bestanden). Daarvoor wordt het papieren document ingescand of gefotografeerd. Vervolgens wordt het daaruit ontstane beeld geanalyseerd (ook bij een scan ontstaat er een beeld!).

Als voorbeeld van een document van de Europeesche Commissie voor de bescherming van persoonsgegevens (EDSA) wordt getoond hoe Offline-AI bij het digitaliseren van documenten kan helpen.

Ein PDF-Dokument des Europäischen Datenschussausschusses (EDSA) als Beispiel.

De bovenstaande afbeeldingen stellen de pagina's van een PDF-document voor. Deze afbeeldingen worden voortgebracht door het scannen of omzetten van een PDF-document in aparte bladzijden.

Na het document te hebben gescand (of gefotografeerd), wordt het met offline-AIgeanalyseerd. Hierbij wordt de tekst uit het document bepaald. Verdergaande procedures herkennen ook afbeeldingen en hun inhoud.

Met offline-ki kunnen zelfs afbeeldingen beschreven worden. Hier een screenshot van een diapositief over het thema offline-ki.

Beispielbild für Erkennung von Bildinhalten durch eine Offline-KI. Einer Präsentation zum Thema "Offline-KI" entnommen.

De offline-ki had nu de taak om te beschrijven wat het beeld voorstelt. Hier is het resultaat:

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

De Duitse vertaling biedt de offline-ki eveneens op verzoek:

Een zwarte en witte tekening van een man met hoorns, IKEA-handboek, als D&D-beest, een AI-gegenereerde afbeelding

Wie de Oekraïense, Turkse, Spaanse, Italiaanse of Poolse versie nodig hebt, kan je ook met Offline-AI geholpen worden:

  • Oekraans: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
  • Een tekening met zwarte en witte oren van een man, een IKEA-handleiding, een D&D-beest als AI, een afbeelding is gemaakt_
  • Spanish: Un dibujo en blanco y negro de un hombre con cuernos, manual de IKEA, como un monstruo van D&D, een afbeelding gegenereerd door kunstmatige intelligentie
  • Italiaans: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
  • Pools: rysunek czarno-biały mężczyzny z rogami, instructie IKEA, als monster D&D, afbeelding gegenereerd door AI

De vertalingen zijn met het huidige goudstandaard, DeepL, gevalideerd en ongewijzigd hier hergegeven.

De volgende stap zou het herkennen van secties/blokken kunnen zijn.

Abschnitte, die von der KI im PDF erkannt wurden.

De in de afbeelding getoonde blokken werden automatisch herkend en gemarkeerd. Ze dienen als voorbereiding voor een efficiënte herkenning van tekst- en beeldinformatie.

Hoeveel informatie in dergelijke blokken kan worden opgeslagen, wordt door de volgende afbeelding getoond.

Mit KI automatisch erkannte Blöcke auf diversen Seiten eines PDF-Dokuments (Auszug).

De getoonde tekstfragmenten zijn volautomatisch herkend. De gebruiker heeft nu meerdere mogelijkheden tot zijn beschikking. Informatie kan eveneens in de vloeiende tekst worden gevonden als met streng zoeken. De strenge zoekopdracht bepaalt alleen treffers voor secties die elk het volledige zoekwoord bevatten. In plaats van een zoekwoord kunnen ook vragen aan het document gesteld worden. De gebruiker ziet uiteindelijk alleen zijn zoekmasker (invoerveld) en de resultaten. De boven getoonde afbeeldingen ziet hij alleen op verzoek.

Eigen documenten raadplegen: Met offline-ki niet alleen beter mogelijk dan met chatgpt, maar ook goedkoper en met volledige gegevenscontrole.

Daarnaast is het bijvoorbeeld ook mogelijk om naar een voorgestelde documentpagina de semantisch gelijkwaardige pagina's te vinden.

In dit voorbeeld zijn de pagina's gevonden die visueel lijken op een standaardpagina (1e pagina links boven). Visuele overeenkomst bestaat in dit voorbeeld als de grijze ingekleurde kast in andere pagina's ook voorkomt. Dit is het geval bij pagina's 3 tot en met 8 (van links naar rechts, van boven naar beneden). Als tegenovergestelde voorbeelden werd pagina 2 getoond als een tekstpagina die niet visueel lijkt op de standaardpagina.

Er kunnen ook semantische zoekopdrachten naar tekst uitgevoerd worden. De zoekopdracht naar documenten en hun pagina's kan zo efficiënt met offline-AIworden uitgevoerd. Bijvoorbeeld, is in het o.g. digitaal gepersonaliseerde PDF-document gezocht naar "personengegevens".

Sommige van de treffers zijn hier te zien:

Gefundene Dokumente für Suche nach "personenbezogene Daten".

Zelfs zonder internetverbinding kan de offline-ki de resultaten direct als tekst weergeven. Alleen voor dit voorbeeld zijn de resultaten in beeldschermafdrukken getoond.

Een detailuitkomst bij deze zoekopdracht wordt hier getoond:

Ein Treffer im Detail: Die semantische Suche hat Unschärfen kompensiert und zeigt eine Trefferwahrscheinlichkeit mitsamt Markierung im Text (Original ist ein Bild!).

Zonder verdere moeite werden ook treffers gevonden, die hetzelfde bedoelen maar een andere uitdrukkingswijze gebruiken. De onduidelijkheid tussen "personenbezogen" en "personenbezogener" werd automatisch door de AI opgeheven. Dit heel eenvoudig voorbeeld kan bijna onbegrensd functioneren.

Een krachtig voorbeeld van semantische zoekopdrachten is de vraag-antwoordassistent voor het Dr. DSGVO Blog beschreven.

Gelijkensoeken

Hoe zou het zijn als je bij een beeld de semantisch meest gelijkende beelden kon vinden? Een beer is een beer, een kat een kat. Of het dier (of object, als andere beelden) groot of klein is, links of boven in het beeld staat of alleen het hoofd of een volledige afbeelding te zien is.

Voor documentenpagina's is het resultaat eveneens indrukwekkend:

Rückwärtssuche: Zu einem Bild (hier: einer Dokumentenseite) werden die optisch am ähnlichsten Exemplare gefunden.

Rechts in het beeld de pagina uit een PDF-document waarin soortgelijke pagina's gezocht moeten worden. Links in het beeld de pagina's die een optische overeenkomst vertonen. De overeenkomst bestaat hieruit dat het gaat om het tekstverloop, maar vooral om het grijze ingekleurde blokje. Zouden er afbeeldingen in het oorspronkelijke beeld te zien zijn geweest, dan zouden deze ook meegenomen worden. In plaats daarvan zou men ook naar de tekst kunnen zoeken die in het beeld te zien is en soortgelijke documenten vinden kunnen. De mogelijkheden zijn eindeloos.

Als laatste nog een kort voorbeeld dat informatie ook in meer uitdagende afbeeldingen kan worden herkend.

Het invoerbeeld is als volgt. Het werd gemaakt met een oud mobieltje, in lage resolutie en onder slechte lichtomstandigheden:

Bild eines Teils eines Reifens, in dem Text erkannt werden soll.

De ongetrainde Offline-AI heeft in een drieviertel seconde op een laptop de volgende gegevens herkend, gemarkeerd en uitgehaald:

Erkannte Angaben auf einem Reifen, automatisch eingefügte Bounding Boxes.

De kerngegevens zijn herkenbaar en hun positie is teruggegeven. Zo kon de serie-nummer 49865 correct en het nummer A055247 bijna correct herkend worden (het "A" werd als "4" herkend, wat ook voor een mens nauwelijks te onderscheiden is).

Er zijn een aantal opgaven onbekend. Hiervoor zijn meerdere oplossingen:

  • Automatisch beeld draaien en herkenning opnieuw uitvoeren
  • Semantische vergelijking van letters en cijfers met offline-AI en eenmaal getrainde AI-model
  • AI-model met voorbeelden van bandenfoto's getraind
  • Als er weinig voorbeelden beschikbaar zijn: Synthetisch een onbegrensd aantal voorbeelden met Offline-AI + conventionele methoden (ruis, beeldomdraaiing, kwaliteitsreductie, …) genereren

AI for your company

Your AI can do more than ChatGPT.
Benefits:
  • Powerful and optimizable
  • Full data control
  • Fast proof of concept
  • Inexpensive
Free initial consultation:   Mail

Het is dus niet alleen mogelijk om tekstdocumenten (die ook afbeeldingen kunnen bevatten) met Offline-AI te digitaliseren. Het is ook mogelijk, Fotos automatisch uit te waarderen. Vooral voor verzekeraars zal dit interessant zijn. De tot nu toe verzamelde, vaak honderdduizenden voorbeelden uit de praktijk, kunnen als vertrouwelijke trainingsgegevens voor een Offline-AI-systeem worden gebruikt. Liggen er te weinig trainingsgegevens voor, dan bestaat de mogelijkheid om kunstmatige zulke trainingsgegevens te genereren. Ook hier komt de Offline-AI in beeld en kijkt al uit naar het moment dat ze op uw server urenlang kan draaien, terwijl u de feestavond of het weekend kunt genieten.

Conclusie

Met Offline-AI kunnen documenten van verschillende aard digitaal worden gescand. De ingescande of gefotografeerde documenten worden daarvoor met AI geanalyseerd. De informatie uit tekst en beeld wordt met AI gehaald. Bijvoorbeeld, de gehaald informatie kan dan met AI semantisch doorzocht, samengevat, in eenvoudiger taal of andere talen vertaald worden.

Een zoektocht naar gelijkende beelden is ook mogelijk: bij een invoerbeeld worden de meest gelijkende beelden gevonden. En dat niet meer door vergelijking van pixels, maar vanuit semantische zin.

Het enige wat nu nog nodig is voor de digitalisering, is een goede scanner of een mobiel met een camera, afhankelijk van het gebruikgeval.

Offline-AI houdt de gegevens op het juiste plek, namelijk in uw bedrijf. Bovendien biedt Offline-AI de mogelijkheid om gegevens van internet te halen of met uw andere IT-systemen te communiceren.

De resultaten zijn voor veel toepassingsgevallen duidelijk beter dan het ooit mogelijk is met ChatGPT. Ook meertaligheid is geen probleem, zelfs met bedrijfs-specifieke woordenboeken. Fachtermen uit de verzekeringswereld, de geneeskunde of de rechtspraak kunnen zo adequaat worden meegenomen.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

De zonden van Microsoft