Digitalisering af dokumenter fungerer uendeligt godt med Offline-AI. Offline-AI er en lokal kørende AI, der ofte er bedre end ChatGPT, datavenlig og billig. Det omfatter at genkende tekst og billeder samt semantisk søgning i disse udtrukne oplysninger. Showcase viser konkrete detaljer.
Hvad er Offline-AI?
Måske forstår nogle "Offline-GPT" bedre. Offline-Intelligenz har dog ikke noget med OpenAI og andre tredjeparter at gøre.
En offline-AIkører på en egen computer. Det kan være enten købt hardware eller leaset hardware. Offline betyder, at AI sender ingen data til andre. Den offline-AIkan hvis nødvendigt tilgå internettet eller kommunikere med andre IT-systemer.
Offline-AI kan for mange anvendelsesfald, som f.eks. digitalisering af dokumenter, afgørende bedre resultater end med ChatGPT og andre Cloud-tjenester opnå. I virksomheder handler det ofte om tusinder af dokumenter. De kostnader ved Cloud-tjenester er ofte uforudsigelige og desuden dyre, når der bliver flere anmodninger. Offline-AI tilbyder en billigere kostnadsflatrate. Den fulde datakontrol er også et grund til ikke at bruge ChatGPT eller Microsoft Azure.
Udlogget kunstig intelligens kan ofte gøre mere end ChatGPT, er billigere og tilbyder fuldstændig kontrol over data samt mulighed for online-adgang.
Digitalisering af dokumenter
Digitalisering betyder det omvandling af analoge til digitale oplysninger. Ofte handler det om at konvertere papirdokumenter til digitale billeder (filer). Derfor bliver papirdokumentet scannet eller fotograferet. Herefter bliver det derfra opståede billede udvurderet (selv ved et scan opstår et billede!).
Som eksempel på et dokument fra Den Europæiske Datatilsynsudvalg (EDSA) vises, hvordan Offline-AI kan hjælpe med digitalisering af dokumenter.

Billederne ovenover viser sider fra et PDF-dokument. Disse billeder opstår enten ved at scane eller omforme et PDF-dokument til enkeltblade.
Efter at dokumentet er blevet scannet (eller fotograferet), bliver det udvurderet med Offline-AI. Dermed bliver den indeholdte tekst i dokumentet fundet. Yderligere procedurer kan også genkende billeder og deres indhold.
Med offline-AIkan selv billeder beskrives. Her et skærmbillede af en folde til emnet Offline-AI.

Den offline-kunstig intelligente havde nu opgaven at beskrive, hvad billedet forestiller. Her er resultatet:
a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image
Den tyske oversættelse leverer også offline-AIefter ønske:
En sort og hvid tegning af en mand med horn, IKEA-manuel, som D&D-monster, en AI-genereret billedbeskrivelse
Der kan også hjælpes med Offline-AI, hvis man har brug for den ukrainske, tyrkiske, spanske, italienske eller polske version:
- Ukrainisch: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
- Tysk: En tegning af en mand med ører, sort og hvid, som er blevet til en IKEA guide, et D&D-monster, der er blevet til en AI-billede
- Spanisch: Un tegning i sort-hvid af en mand med horn, manual fra IKEA, som et monster fra D&D, en billed genereret ved hjælp af kunstig intelligens_
- Italienisch: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
- Tysk: rysunek czarno-biały mężczyzny z rogami, instrukcja IKEA, jako potwór D&D, obraz generowany przez AI
Oversættelserne er blevet verificeret med det hidtilværende guldstandard, DEEPL, og er her givet uden ændringer.
Den næste skridt kunne være at genkende afsnit/blokke.

Blokkerne, der vises i billedet, blev automatisk genkendt og mærket. De tjener som forløber til en effektiv erkendelse af tekst- og billedinformationer.
Hvor mange informationer der kan være i sådanne blokke vises på følgende tegning.

De viste tekstafsnit blev automatisk genkendt. Brugeren har nu flere muligheder til rådighed. Informationer kan både findes i tekstfløden og med streng søgning. Den strenge søgning finder kun treff for afsnit, der hverken indeholder hele søgeren. I stedet for en søgeren kan også spørgsmål stilles til dokumentet. Brugeren ser til sidst kun sin søgermaske (indtastningsfelt) samt resultaterne. De ovennævnte billeder ses kun på ønske.
Egne dokumenter spørger: Med offline-AIikke kun muligt at blive bedre end med ChatGPT, men også billigere og med fuld kontrol over dataene.
Desuden kan man også finde sider, der er semantisk tilsvarende en given dokumentside.
I dette eksempel er siderne fundet, som ligner en fastlagte side (1. side til venstre ovenpå) optisk. Optisk lighed forekommer i dette eksempel, når den grønne baggrundsbox også findes på andre sider. Dette gælder for siderne 3-8 (fra venstre mod højre, fra øverst til nederste). Som et modsætningseksempel er side 2 blevet vist som en tekstside uden optisk lighed.
Men der kan også foretages semantiske søgninger efter tekst. Søgningen efter dokumenter og sider kan således med Offline-AI udføres med god kapacitet. Eksempelvis blev i det ovennævnte digitaliserede PDF-dokument søgt efter "personbezogene data".
Nogle af de træffere er her at se:

Selvfølgelig kan den offline-AIvise treffene direkte som tekst. Kun for eksemplet er disse her fremstillet i form af skærmbilleder fra siderne.
Et detaljertiltræk til denne søgning er her vist:

Uden yderligere indsats blev også træffere fundet, der mente det samme, men brugte en anden udtryksmåde. Uklarheden mellem "personbezogene" og "personbezogener" blev automatisk justeret af AI. Dette meget simple eksempel kan næsten uendelig være effektiv.
Et effektivt eksempel på semantisk søgning er en spørgsmål-svar-assistent til Dr. DSGVO Blog, der beskrevet er.
Lignesøgning
Hvad ville det sige at man kunne finde billeder, som er semantisk tilsvarende et bestemt billede? En bjørn er en bjørn, en kat en kat. Det gør ikke noget, om dyr (eller objekter, hvis andre billeder) er store eller små, placeret til venstre eller øverst i billedet eller hvis kun hovedet eller hele billedet ses.
For dokumenter-sider er resultatet lige så imponerende:

Til højre i billedet er en side fra et PDF-dokument, hvor man søger efter lignende sider. Til venstre i billedet er siderne, der har en optisk lighed. Ligheden består her af tekstfløden, men især af det grå baggrundsfelt. Hvis billeder var til at se i det oprindelige billede, ville disse være medregnet. I stedet kunne man også have søgt efter dokumenter, der indeholder den tekst, som er synlig på billedet. Mulighederne er uendelige.
Som afslutning på dette et eksempel, hvor også informationer kan genkendes i anspruksvollere billeder.
Indgangsbilledet er følgende. Det blev lavet med et gammelt mobiltelefon, i lav opløsning og under dårlige lysforhold:

Den uuddannede Offline-AI har i en tredive-del af en sekund på et laptop følgende oplysninger genkendt, markeret og udtrukket:

Kerninformationerne blev genkendt og deres position blev returneret. Så kunne serienummer 49865 korrekt og nummer A055247 næsten korrekt genkendes (det „A“ blev genkendt som et „4“, hvilket også er svært for en menneske at gennemskue).
Som man kan se er der en del oplysninger, som ikke er kendt. Heri er flere løsninger:
- Automatisk dreje billedet og genkendelse igen gennemføres
- Semantisk sammenligning af bogstaver og tal med offline-AI og en gang trænet AI-model
- AI-modellen med eksempler på bilde af dæk trænet
- Hvis der er for få eksempler til træning: Synthetisk oprettelse af uendeligt mange eksempler med Offline-AI + traditionelle metoder (støj, billedrotation, kvalitetsreduktion, …)
AI for your company
- Powerful and optimizable
- Full data control
- Fast proof of concept
- Inexpensive
Det er derfor ikke kun muligt at digitalisere tekstdokumenter (som også kan indeholde billeder) med Offline-AI. Det er også muligt, at automatisk vurdere billeder. Især for forsikringsformidler skal dette være interessant. De samlede eksempler fra praksissen, der ofte udgør hundrede tusinde, kan bruges som fortrolige træningsdata til et Offline-AI-system. Hvis der ikke er nok træningsdata, kan man oprette künstliche sådanne data. Herfor bliver Offline-AI også anvendt og glæder sig allerede over at køre på din server i timer, mens du nyder din aftensmad eller weekenden.
Konklusion
Med Offline-AI kan dokumenter af forskellig art digitaliseres. De indskrevne eller fotograferede dokumenter bliver herefter analyseret med AI. Informationen fra tekst og billed indeholder bliver udtrukket med AI. Eksempelvis kan de udtrukne informationer derefter med AI semantisk søgt, sammenfattet, i en lettere sprogform eller andre sprog oversat.
En lignesøgning med billeder er også mulig: Til et indtastningsbillede findes de mest lignende billeder. Og det gør man fra en semantisk synsvinkel og ikke som "tidligere" ved hjælp af sammenligning af billedpunkter.
Det eneste, der nu er nødvendigt for digitaliseringen, er en god scanner eller et mobiltelefon med kamera, alt efter anvendelsesfald.
Offline-AI holder dataene på det sted, hvor de hører hjemme, nemlig i dit firma. Derudover giver Offline-AI mulighed for at hente data fra internettet eller kommunikere med dine andre IT-systemer.
Resultaterne er for mange anvendelsesfald tydelig bedre end hvad ChatGPT nogensinde kan være. Sprogflugt er heller ikke et problem, selv med virksomhedseje ordbøger. Fagudtryk fra forsikringen, medicinen eller retsvæsenet kan således tilstrækkeligt tages i betragtning.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
