Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Offline-AI Showcase: Digitalisering af dokumenter

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Artikel som PDF (kun for abonnenter på nyhedsbrevet)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Digitalisering af dokumenter fungerer uendeligt godt med Offline-AI. Offline-AI er en lokal kørende AI, der ofte er bedre end ChatGPT, datavenlig og billig. Det omfatter at genkende tekst og billeder samt semantisk søgning i disse udtrukne oplysninger. Showcase viser konkrete detaljer.

Hvad er Offline-AI?

Måske forstår nogle "Offline-GPT" bedre. Offline-Intelligenz har dog ikke noget med OpenAI og andre tredjeparter at gøre.

En offline-AIkører på en egen computer. Det kan være enten købt hardware eller leaset hardware. Offline betyder, at AI sender ingen data til andre. Den offline-AIkan hvis nødvendigt tilgå internettet eller kommunikere med andre IT-systemer.

Offline-AI kan for mange anvendelsesfald, som f.eks. digitalisering af dokumenter, afgørende bedre resultater end med ChatGPT og andre Cloud-tjenester opnå. I virksomheder handler det ofte om tusinder af dokumenter. De kostnader ved Cloud-tjenester er ofte uforudsigelige og desuden dyre, når der bliver flere anmodninger. Offline-AI tilbyder en billigere kostnadsflatrate. Den fulde datakontrol er også et grund til ikke at bruge ChatGPT eller Microsoft Azure.

Udlogget kunstig intelligens kan ofte gøre mere end ChatGPT, er billigere og tilbyder fuldstændig kontrol over data samt mulighed for online-adgang.

Digitalisering af dokumenter

Digitalisering betyder det omvandling af analoge til digitale oplysninger. Ofte handler det om at konvertere papirdokumenter til digitale billeder (filer). Derfor bliver papirdokumentet scannet eller fotograferet. Herefter bliver det derfra opståede billede udvurderet (selv ved et scan opstår et billede!).

Som eksempel på et dokument fra Den Europæiske Datatilsynsudvalg (EDSA) vises, hvordan Offline-AI kan hjælpe med digitalisering af dokumenter.

Ein PDF-Dokument des Europäischen Datenschussausschusses (EDSA) als Beispiel.

Billederne ovenover viser sider fra et PDF-dokument. Disse billeder opstår enten ved at scane eller omforme et PDF-dokument til enkeltblade.

Efter at dokumentet er blevet scannet (eller fotograferet), bliver det udvurderet med Offline-AI. Dermed bliver den indeholdte tekst i dokumentet fundet. Yderligere procedurer kan også genkende billeder og deres indhold.

Med offline-AIkan selv billeder beskrives. Her et skærmbillede af en folde til emnet Offline-AI.

Beispielbild für Erkennung von Bildinhalten durch eine Offline-KI. Einer Präsentation zum Thema "Offline-KI" entnommen.

Den offline-kunstig intelligente havde nu opgaven at beskrive, hvad billedet forestiller. Her er resultatet:

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

Den tyske oversættelse leverer også offline-AIefter ønske:

En sort og hvid tegning af en mand med horn, IKEA-manuel, som D&D-monster, en AI-genereret billedbeskrivelse

Der kan også hjælpes med Offline-AI, hvis man har brug for den ukrainske, tyrkiske, spanske, italienske eller polske version:

  • Ukrainisch: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
  • Tysk: En tegning af en mand med ører, sort og hvid, som er blevet til en IKEA guide, et D&D-monster, der er blevet til en AI-billede
  • Spanisch: Un tegning i sort-hvid af en mand med horn, manual fra IKEA, som et monster fra D&D, en billed genereret ved hjælp af kunstig intelligens_
  • Italienisch: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
  • Tysk: rysunek czarno-biały mężczyzny z rogami, instrukcja IKEA, jako potwór D&D, obraz generowany przez AI

Oversættelserne er blevet verificeret med det hidtilværende guldstandard, DEEPL, og er her givet uden ændringer.

Den næste skridt kunne være at genkende afsnit/blokke.

Abschnitte, die von der KI im PDF erkannt wurden.

Blokkerne, der vises i billedet, blev automatisk genkendt og mærket. De tjener som forløber til en effektiv erkendelse af tekst- og billedinformationer.

Hvor mange informationer der kan være i sådanne blokke vises på følgende tegning.

Mit KI automatisch erkannte Blöcke auf diversen Seiten eines PDF-Dokuments (Auszug).

De viste tekstafsnit blev automatisk genkendt. Brugeren har nu flere muligheder til rådighed. Informationer kan både findes i tekstfløden og med streng søgning. Den strenge søgning finder kun treff for afsnit, der hverken indeholder hele søgeren. I stedet for en søgeren kan også spørgsmål stilles til dokumentet. Brugeren ser til sidst kun sin søgermaske (indtastningsfelt) samt resultaterne. De ovennævnte billeder ses kun på ønske.

Egne dokumenter spørger: Med offline-AIikke kun muligt at blive bedre end med ChatGPT, men også billigere og med fuld kontrol over dataene.

Desuden kan man også finde sider, der er semantisk tilsvarende en given dokumentside.

I dette eksempel er siderne fundet, som ligner en fastlagte side (1. side til venstre ovenpå) optisk. Optisk lighed forekommer i dette eksempel, når den grønne baggrundsbox også findes på andre sider. Dette gælder for siderne 3-8 (fra venstre mod højre, fra øverst til nederste). Som et modsætningseksempel er side 2 blevet vist som en tekstside uden optisk lighed.

Men der kan også foretages semantiske søgninger efter tekst. Søgningen efter dokumenter og sider kan således med Offline-AI udføres med god kapacitet. Eksempelvis blev i det ovennævnte digitaliserede PDF-dokument søgt efter "personbezogene data".

Nogle af de træffere er her at se:

Gefundene Dokumente für Suche nach "personenbezogene Daten".

Selvfølgelig kan den offline-AIvise treffene direkte som tekst. Kun for eksemplet er disse her fremstillet i form af skærmbilleder fra siderne.

Et detaljertiltræk til denne søgning er her vist:

Ein Treffer im Detail: Die semantische Suche hat Unschärfen kompensiert und zeigt eine Trefferwahrscheinlichkeit mitsamt Markierung im Text (Original ist ein Bild!).

Uden yderligere indsats blev også træffere fundet, der mente det samme, men brugte en anden udtryksmåde. Uklarheden mellem "personbezogene" og "personbezogener" blev automatisk justeret af AI. Dette meget simple eksempel kan næsten uendelig være effektiv.

Et effektivt eksempel på semantisk søgning er en spørgsmål-svar-assistent til Dr. DSGVO Blog, der beskrevet er.

Lignesøgning

Hvad ville det sige at man kunne finde billeder, som er semantisk tilsvarende et bestemt billede? En bjørn er en bjørn, en kat en kat. Det gør ikke noget, om dyr (eller objekter, hvis andre billeder) er store eller små, placeret til venstre eller øverst i billedet eller hvis kun hovedet eller hele billedet ses.

For dokumenter-sider er resultatet lige så imponerende:

Rückwärtssuche: Zu einem Bild (hier: einer Dokumentenseite) werden die optisch am ähnlichsten Exemplare gefunden.

Til højre i billedet er en side fra et PDF-dokument, hvor man søger efter lignende sider. Til venstre i billedet er siderne, der har en optisk lighed. Ligheden består her af tekstfløden, men især af det grå baggrundsfelt. Hvis billeder var til at se i det oprindelige billede, ville disse være medregnet. I stedet kunne man også have søgt efter dokumenter, der indeholder den tekst, som er synlig på billedet. Mulighederne er uendelige.

Som afslutning på dette et eksempel, hvor også informationer kan genkendes i anspruksvollere billeder.

Indgangsbilledet er følgende. Det blev lavet med et gammelt mobiltelefon, i lav opløsning og under dårlige lysforhold:

Bild eines Teils eines Reifens, in dem Text erkannt werden soll.

Den uuddannede Offline-AI har i en tredive-del af en sekund på et laptop følgende oplysninger genkendt, markeret og udtrukket:

Erkannte Angaben auf einem Reifen, automatisch eingefügte Bounding Boxes.

Kerninformationerne blev genkendt og deres position blev returneret. Så kunne serienummer 49865 korrekt og nummer A055247 næsten korrekt genkendes (det „A“ blev genkendt som et „4“, hvilket også er svært for en menneske at gennemskue).

Som man kan se er der en del oplysninger, som ikke er kendt. Heri er flere løsninger:

  • Automatisk dreje billedet og genkendelse igen gennemføres
  • Semantisk sammenligning af bogstaver og tal med offline-AI og en gang trænet AI-model
  • AI-modellen med eksempler på bilde af dæk trænet
  • Hvis der er for få eksempler til træning: Synthetisk oprettelse af uendeligt mange eksempler med Offline-AI + traditionelle metoder (støj, billedrotation, kvalitetsreduktion, …)

AI for your company

Your AI can do more than ChatGPT.
Benefits:
  • Powerful and optimizable
  • Full data control
  • Fast proof of concept
  • Inexpensive
Free initial consultation:   Mail

Det er derfor ikke kun muligt at digitalisere tekstdokumenter (som også kan indeholde billeder) med Offline-AI. Det er også muligt, at automatisk vurdere billeder. Især for forsikringsformidler skal dette være interessant. De samlede eksempler fra praksissen, der ofte udgør hundrede tusinde, kan bruges som fortrolige træningsdata til et Offline-AI-system. Hvis der ikke er nok træningsdata, kan man oprette künstliche sådanne data. Herfor bliver Offline-AI også anvendt og glæder sig allerede over at køre på din server i timer, mens du nyder din aftensmad eller weekenden.

Konklusion

Med Offline-AI kan dokumenter af forskellig art digitaliseres. De indskrevne eller fotograferede dokumenter bliver herefter analyseret med AI. Informationen fra tekst og billed indeholder bliver udtrukket med AI. Eksempelvis kan de udtrukne informationer derefter med AI semantisk søgt, sammenfattet, i en lettere sprogform eller andre sprog oversat.

En lignesøgning med billeder er også mulig: Til et indtastningsbillede findes de mest lignende billeder. Og det gør man fra en semantisk synsvinkel og ikke som "tidligere" ved hjælp af sammenligning af billedpunkter.

Det eneste, der nu er nødvendigt for digitaliseringen, er en god scanner eller et mobiltelefon med kamera, alt efter anvendelsesfald.

Offline-AI holder dataene på det sted, hvor de hører hjemme, nemlig i dit firma. Derudover giver Offline-AI mulighed for at hente data fra internettet eller kommunikere med dine andre IT-systemer.

Resultaterne er for mange anvendelsesfald tydelig bedre end hvad ChatGPT nogensinde kan være. Sprogflugt er heller ikke et problem, selv med virksomhedseje ordbøger. Fagudtryk fra forsikringen, medicinen eller retsvæsenet kan således tilstrækkeligt tages i betragtning.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Microsofts synder