Offline-AI är en AI som kör lokalt och fungerar utan internetanslutning, och är ofta mer datadriven och kostnadseffektiv än molnbaserade lösningar som ChatGPT. Den möjliggör analys av dokument och bilder, inklusive OCR och semantisk sökning.

Vilket syfte har digitalisering av dokument med offline-AI?

Offline-AI kan konvertera analoga dokument, som till exempel PDF-filer, till digitala format. Under konverteringen extraheras text och bilder, vilket är fördelaktigt för efterföljande analys och användning. AI:n kan också beskriva bilder och utföra semantisk sökning.

Kan den offline AI även analysera bilder som tagits i låg kvalitet eller under dåliga ljusförhållanden?

Ja, den offline AI kan även analysera bilder med låg upplösning eller dåliga ljusförhållanden och extrahera information, till exempel ett däckars serienummer. Den kan också generera syntetiska träningsdata för att förbättra noggrannheten.

Vilka möjligheter finns det om AI inte korrekt identifierar all information?

Det finns olika lösningar för att öka igenkänningsnoggrannheten. Dessa inkluderar automatisk rotering av bilder, en semantisk jämförelse av bokstäver och siffror eller generering av syntetiska träningsdata av den offline-AI själv.

Hur kan offline AI hjälpa till vid sökning i dokument?

Offline-KI möjliggör inte bara sökning efter specifika ord, utan även efter semantiskt liknande innehåll inom ett dokument. Detta möjliggör en mer effektiv informationssökning och att hitta relevant information, även om den inte exakt matchar söktermer.

Vilken är den huvudsakliga funktionen för offline-AI vid PDF-dokument?

Offline-AI möjliggör extrahering av text från bilder och igenkänning av text på objekt, som t.ex. serienummer, utan behov av en online-anslutning.

Vilken typ av information kan en offline-AI känna igen?

KI kan identifiera och extrahera information från både text i bilder och information på fysiska objekt inom dokument, såsom serienummer.

Behöver den offline AI en internetanslutning?

Nej, den offline KI fungerar utan internetanslutning och möjliggör därmed åtkomst till dokumentinformation även utan nätverksåtkomst.

Digitaliseringsvisning av Offline-AI: Dokuments digitalisering

Digitalisering av dokument fungerar utmärkt med Offline-AI. Offline-AI är en lokal löpande AI som ofta är bättre än ChatGPT, datavänlig och billig. Detta inkluderar att identifiera texter och bilder samt genomföra semantisk sökning i dessa extraherade informationer. Showcase visar konkreter detaljinformation.

Vad är Offline-AI?

Många kanske förstår bättre vad "Offline-GPT" är. Offline-Intelligens har dock ingenting med OpenAI och andra tredjepartsleverantörer att göra.

En offline-AIkörs på en egen dator. Det kan vara antingen ett köpt eller hyrt hårdvarusystem. Offline innebär att AI inget data skickar till tredje part. Den offline-AIkan när som helst komma åt internet eller kommunicera med andra IT-system.

Testa Offline-AL (Artificiell Intelligens)

Offline-AI kan för många användningsfaller, som till exempel digitalisering av dokument, betydligt bättre resultat än med ChatGPT och andra molntjänster producera. I företag handlar det ofta om tusentals dokument. De kostnader vid molntjänster är ofta obestämda och dessutom dyra när många frågor ställs. Offline-AI erbjuder en billig kostnad per flatrate. Den fullständiga kontrollen av data är för många också ett skäl att inte använda ChatGPT eller Microsoft Azure.

Avstängd AI kan ofta göra mer än ChatGPT, är billigare och erbjuder fullständig kontroll över data samt möjlighet till onlineåtkomst.

Digitalisering av dokument

Digitalisering innebär omvandlingen av analoga till digitala uppgifter. Ofta handlar det om att konvertera pappersdokument till digitala bilder (filer). För detta skanns eller fotograferas papperet. Därefter utvärderas det bild som uppstår (även vid ett scan uppstår en bild!).

Med ett exempel på ett dokument från den europeiska dataskyddsmyndigheten (EDSA) visas hur offline-AIkan hjälpa till vid digitalisering av dokument.

Ein PDF-Dokument des Europäischen Datenschussausschusses (EDSA) als Beispiel.

Bilderna ovan visar sidorna i ett PDF-dokument. Dessa bilder kan skapas antingen genom att scanna eller omvandla ett PDF-dokument till enskilda sidor.

Efter att dokumentet har skannats (eller fotograferats) utvärderas det med Offline-AI. Då identifieras den innehållande dokumenttexten. Vidaregående procedurer identifierar även bilder och deras innehåll.

Med offline-AIkan till och med bilder beskrivas. Här ett skott av en slide om ämnet Offline-AI.

Beispielbild für Erkennung von Bildinhalten durch eine Offline-KI. Einer Präsentation zum Thema "Offline-KI" entnommen.

Den offline-beräkningsförmågan hade nu uppgiften att beskriva vad bilden föreställer. Här är resultatet:

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

Tysk översättning levererar också offline- AI efter begäran:

En svart och vit teckning av en man med horn, IKEA-manual, som D&D-monster, en AI-genererad bild

För den som behöver den ukrainska, turkiska, spanska, italienska eller polska versionen kan även Offline-AI hjälpa till:

Svensk: "Målningsman med horn, en guide från IKEA som är ett monster i D&D, samt ett bild som genererats av AI"
En svart och vit teckning med öron som en man, en ikea guide, en d&d monster, en ai bild skapad_
Svart och vitt teckning av en man med horn, IKEAs manual, som ett monster från D&D, en bild skapad med artificiell intelligens_
Italienisch: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
Svenska: svart-tecknad ritning av en man med horn, instruktion från IKEA, som ett monster i D&D, bild genererad av AI

Översättningarna har verifierats med det tidigare gyllene standardet, Deepl, och ges här utan ändringar.

Nästa steg kunde vara att identifiera avsnitt/blocker.

Abschnitte, die von der KI im PDF erkannt wurden.

De block som visas i bilden har blivit automatiskt identifierade och märkta. De utgör en förberedelse inför en effektiv upptäckt av text- och bildinformationer.

Hur många uppgifter som kan föras i sådana block visas av följande bild.

Mit KI automatisch erkannte Blöcke auf diversen Seiten eines PDF-Dokuments (Auszug).

De visade textavsnitten har blivit automatiskt identifierade. Användaren har nu flera möjligheter tillgängliga. Informationen kan lika väl hittas i flytext som med streng sökning. Den strenga sökningen fastställer endast träffar för avsnitt som innehåller den fullständiga sökordet. Istället för ett sökord kan också frågor ställas till dokumentet. Användaren ser i slutändan bara sin sökmask (inmatningsfält) samt resultaten. De ovan visade bilderna ser han endast på begäran.

Egna dokument beaktar: Med offline-AIinte bara möjligt att göra bättre än med ChatGPT, utan också billigare och med fullständig kontroll över data.

Det är också möjligt att hitta dokumentssidor som är semantiskt lika en given sida.

I detta exempel hittades sidorna som liknar en förbestämd sida (1:a sidan till vänster ovanpå) optiskt sett. Optisk överensstämmelse förekommer i detta exempel när den grå bakgrundsförteckningen även finns på andra sidor. Detta är fallet på sidorna 3-8 (från vänster till höger, från topp till botten). Som motexempel visas sidan 2 som en optiskt olik textsidor.

Men även semantiska sökningar efter text kan utföras. Sökningen efter dokument och dess sidor kan således med Offline-AI genomföras på ett effektivt sätt. Till exempel har man i det ovan nämnda digitaliserade PDF-dokumentet sökt efter "personuppgifter".

Några av träffarna syns här:

Gefundene Dokumente für Suche nach "personenbezogene Daten".

Naturligtvis kan den offline-beräkningsmodellen visa träffarna direkt som text. Endast för exemplet har träffarna här visats i form av skärmdumpar på sidorna.

Ett detaljträff till denna sökning visas här:

Ein Treffer im Detail: Die semantische Suche hat Unschärfen kompensiert und zeigt eine Trefferwahrscheinlichkeit mitsamt Markierung im Text (Original ist ein Bild!).

Utan ytterligare ansträngning hittades även träffar som menade samma sak, men använde en annan uttrycksform. Otydligheten mellan "personbezogen" och "personbunden" balanserades automatiskt av AI:en. Detta mycket enkelt exempel kan nästan oändligt utvecklas.

Ett effektivt exempel på semantisk sökning är till Fråga-svar-assistenten för Dr. DSGVO Blog beskriven.

Liknadsökning

Hur skulle det vara om man kunde hitta bilder som är semantiskt lika? En björn är en björn, en katt en katt. Oavsett om djuret (eller objektet, om andra bilder) är stort eller litet, till vänster eller ovan i bilden, eller om bara huvudet eller en hel bild syns.

För dokumentsidor är resultatet lika imponerande:

Rückwärtssuche: Zu einem Bild (hier: einer Dokumentenseite) werden die optisch am ähnlichsten Exemplare gefunden.

I högra delen av bilden syns en sida ur ett PDF-dokument som man vill hitta liknande sidor till. I vänstra delen av bilden syns sidor med optisk likhet. Likheten består i textflödet, men framför allt i det grå bakgrundsfältet. Om bilder fanns i originalet hade dessa också tagits hänsyn till. Istället kunde man ha sökt efter dokument som innehöll samma text som syns i bilden. Möjligheterna är oändliga.

Som avslutning ett kort exempel på att informationer även kan upptäckas i mer krävande bilder.

Inmatningsbilden är följande. Den har tagits med ett gammalt mobiltelefon, i låg upplösning och under dåliga ljusförhållanden:

Bild eines Teils eines Reifens, in dem Text erkannt werden soll.

Den otränade Offline-AI har i en tredjedel av en sekund på en dator kunnat identifiera, märka och extrahera följande uppgifter:

Erkannte Angaben auf einem Reifen, automatisch eingefügte Bounding Boxes.

Kärnkoderna identifierades och deras position återgavs. Så kunde serienummer 49865 korrekt och nummer A055247 nästan korrekt identifieras (det "A" som identifierades som "4", vilket även en människa knappt kan identifiera).

Som syns är några uppgifter okända. För detta finns flera lösningar:

Automatiskt vänd bild och igenomföra igenkännande
Semantisk jämförelse av bokstäver och siffror med offline-AIoch en gång tränat AI-modell
AI-modellen med exempel på bildade remsor som tränats
Om det finns för få exempel att träna med: Synthetiskt skapa obegränsat många exempel med offline-AI+ traditionella metoder (brus, bildrotation, kvalitetsreducering, etc.)

AI for your company

Your AI can do more than ChatGPT.

Benefits:

Powerful and optimizable
Full data control
Fast proof of concept
Inexpensive

Free initial consultation: Mail to ai@dr-dsgvo.de

Det är alltså inte bara möjligt att digitalisera textdokument (som även kan innehålla bilder) med Offline-AI. Det är också möjligt att automatiskt värdera bilder. Särskilt för försäkringsbolag borde detta vara intressant. De hittills samlade, ofta hundratals tusentals exemplar från praktiken kan användas som konfidentiella träningsdata för ett Offline-AI-system. Om det finns för få träningsdata finns möjligheten att skapa künstliga sådana träningsdata. Här kommer också offline-AItill nytta och ser redan fram emot att köra på er server i timmar, medan ni njuter av eftermiddags- eller helgutflykt.

Sammandrag

Med offline-AIkan dokument av olika slag digitaliseras. De skannade eller fotograferade dokumenten analyseras med AI. Informationen från text och bild extraheras med hjälp av AI. Till exempel kan de extraherade informationsen sedan med AI semantiskt sökas, sammanfattas, i lättare språk eller andra språk översättas.

Även en sökning efter liknande bilder är möjlig: Till ett inmatningsbild hittas de mest lika bilderna. Och det från semantisk synvinkel och inte som "förr" genom jämförande av bildpunkter.

Det enda som nu behövs för digitaliseringen är en bra skanner eller ett mobiltelefon med kamera, beroende på tillämpning.

Offline-AI håller data där de hör hemma, d.v.s. i ert företag. Dessutom erbjuder Offline-AI möjlighet att hämta in data från internet eller kommunicera med era andra IT-system.

Resultaten är för många användningsfall tydligt bättre än vad ChatGPT någonsin kan vara. Även flerspråkighet är inget problem, även med företagsägda ordböcker. Specialbegrepp från försäkringsbranschen, medicinen eller juridiken kan således tas tillräckligt i beaktande.