Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

Digitaliseringsvisning av Offline-AI: Dokuments digitalisering

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Digitalisering av dokument fungerar utmärkt med Offline-AI. Offline-AI är en lokal löpande AI som ofta är bättre än ChatGPT, datavänlig och billig. Detta inkluderar att identifiera texter och bilder samt genomföra semantisk sökning i dessa extraherade informationer. Showcase visar konkreter detaljinformation.

Vad är Offline-AI?

Många kanske förstår bättre vad "Offline-GPT" är. Offline-Intelligens har dock ingenting med OpenAI och andra tredjepartsleverantörer att göra.

En offline-AIkörs på en egen dator. Det kan vara antingen ett köpt eller hyrt hårdvarusystem. Offline innebär att AI inget data skickar till tredje part. Den offline-AIkan när som helst komma åt internet eller kommunicera med andra IT-system.

Offline-AI kan för många användningsfaller, som till exempel digitalisering av dokument, betydligt bättre resultat än med ChatGPT och andra molntjänster producera. I företag handlar det ofta om tusentals dokument. De kostnader vid molntjänster är ofta obestämda och dessutom dyra när många frågor ställs. Offline-AI erbjuder en billig kostnad per flatrate. Den fullständiga kontrollen av data är för många också ett skäl att inte använda ChatGPT eller Microsoft Azure.

Avstängd AI kan ofta göra mer än ChatGPT, är billigare och erbjuder fullständig kontroll över data samt möjlighet till onlineåtkomst.

Digitalisering av dokument

Digitalisering innebär omvandlingen av analoga till digitala uppgifter. Ofta handlar det om att konvertera pappersdokument till digitala bilder (filer). För detta skanns eller fotograferas papperet. Därefter utvärderas det bild som uppstår (även vid ett scan uppstår en bild!).

Med ett exempel på ett dokument från den europeiska dataskyddsmyndigheten (EDSA) visas hur offline-AIkan hjälpa till vid digitalisering av dokument.

Ein PDF-Dokument des Europäischen Datenschussausschusses (EDSA) als Beispiel.

Bilderna ovan visar sidorna i ett PDF-dokument. Dessa bilder kan skapas antingen genom att scanna eller omvandla ett PDF-dokument till enskilda sidor.

Efter att dokumentet har skannats (eller fotograferats) utvärderas det med Offline-AI. Då identifieras den innehållande dokumenttexten. Vidaregående procedurer identifierar även bilder och deras innehåll.

Med offline-AIkan till och med bilder beskrivas. Här ett skott av en slide om ämnet Offline-AI.

Beispielbild für Erkennung von Bildinhalten durch eine Offline-KI. Einer Präsentation zum Thema "Offline-KI" entnommen.

Den offline-beräkningsförmågan hade nu uppgiften att beskriva vad bilden föreställer. Här är resultatet:

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

Tysk översättning levererar också offline- AI efter begäran:

En svart och vit teckning av en man med horn, IKEA-manual, som D&D-monster, en AI-genererad bild

För den som behöver den ukrainska, turkiska, spanska, italienska eller polska versionen kan även Offline-AI hjälpa till:

  • Svensk: "Målningsman med horn, en guide från IKEA som är ett monster i D&D, samt ett bild som genererats av AI"
  • En svart och vit teckning med öron som en man, en ikea guide, en d&d monster, en ai bild skapad_
  • Svart och vitt teckning av en man med horn, IKEAs manual, som ett monster från D&D, en bild skapad med artificiell intelligens_
  • Italienisch: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
  • Svenska: svart-tecknad ritning av en man med horn, instruktion från IKEA, som ett monster i D&D, bild genererad av AI

Översättningarna har verifierats med det tidigare gyllene standardet, Deepl, och ges här utan ändringar.

Nästa steg kunde vara att identifiera avsnitt/blocker.

Abschnitte, die von der KI im PDF erkannt wurden.

De block som visas i bilden har blivit automatiskt identifierade och märkta. De utgör en förberedelse inför en effektiv upptäckt av text- och bildinformationer.

Hur många uppgifter som kan föras i sådana block visas av följande bild.

Mit KI automatisch erkannte Blöcke auf diversen Seiten eines PDF-Dokuments (Auszug).

De visade textavsnitten har blivit automatiskt identifierade. Användaren har nu flera möjligheter tillgängliga. Informationen kan lika väl hittas i flytext som med streng sökning. Den strenga sökningen fastställer endast träffar för avsnitt som innehåller den fullständiga sökordet. Istället för ett sökord kan också frågor ställas till dokumentet. Användaren ser i slutändan bara sin sökmask (inmatningsfält) samt resultaten. De ovan visade bilderna ser han endast på begäran.

Egna dokument beaktar: Med offline-AIinte bara möjligt att göra bättre än med ChatGPT, utan också billigare och med fullständig kontroll över data.

Det är också möjligt att hitta dokumentssidor som är semantiskt lika en given sida.

I detta exempel hittades sidorna som liknar en förbestämd sida (1:a sidan till vänster ovanpå) optiskt sett. Optisk överensstämmelse förekommer i detta exempel när den grå bakgrundsförteckningen även finns på andra sidor. Detta är fallet på sidorna 3-8 (från vänster till höger, från topp till botten). Som motexempel visas sidan 2 som en optiskt olik textsidor.

Men även semantiska sökningar efter text kan utföras. Sökningen efter dokument och dess sidor kan således med Offline-AI genomföras på ett effektivt sätt. Till exempel har man i det ovan nämnda digitaliserade PDF-dokumentet sökt efter "personuppgifter".

Några av träffarna syns här:

Gefundene Dokumente für Suche nach "personenbezogene Daten".

Naturligtvis kan den offline-beräkningsmodellen visa träffarna direkt som text. Endast för exemplet har träffarna här visats i form av skärmdumpar på sidorna.

Ett detaljträff till denna sökning visas här:

Ein Treffer im Detail: Die semantische Suche hat Unschärfen kompensiert und zeigt eine Trefferwahrscheinlichkeit mitsamt Markierung im Text (Original ist ein Bild!).

Utan ytterligare ansträngning hittades även träffar som menade samma sak, men använde en annan uttrycksform. Otydligheten mellan "personbezogen" och "personbunden" balanserades automatiskt av AI:en. Detta mycket enkelt exempel kan nästan oändligt utvecklas.

Ett effektivt exempel på semantisk sökning är till Fråga-svar-assistenten för Dr. DSGVO Blog beskriven.

Liknadsökning

Hur skulle det vara om man kunde hitta bilder som är semantiskt lika? En björn är en björn, en katt en katt. Oavsett om djuret (eller objektet, om andra bilder) är stort eller litet, till vänster eller ovan i bilden, eller om bara huvudet eller en hel bild syns.

För dokumentsidor är resultatet lika imponerande:

Rückwärtssuche: Zu einem Bild (hier: einer Dokumentenseite) werden die optisch am ähnlichsten Exemplare gefunden.

I högra delen av bilden syns en sida ur ett PDF-dokument som man vill hitta liknande sidor till. I vänstra delen av bilden syns sidor med optisk likhet. Likheten består i textflödet, men framför allt i det grå bakgrundsfältet. Om bilder fanns i originalet hade dessa också tagits hänsyn till. Istället kunde man ha sökt efter dokument som innehöll samma text som syns i bilden. Möjligheterna är oändliga.

Som avslutning ett kort exempel på att informationer även kan upptäckas i mer krävande bilder.

Inmatningsbilden är följande. Den har tagits med ett gammalt mobiltelefon, i låg upplösning och under dåliga ljusförhållanden:

Bild eines Teils eines Reifens, in dem Text erkannt werden soll.

Den otränade Offline-AI har i en tredjedel av en sekund på en dator kunnat identifiera, märka och extrahera följande uppgifter:

Erkannte Angaben auf einem Reifen, automatisch eingefügte Bounding Boxes.

Kärnkoderna identifierades och deras position återgavs. Så kunde serienummer 49865 korrekt och nummer A055247 nästan korrekt identifieras (det "A" som identifierades som "4", vilket även en människa knappt kan identifiera).

Som syns är några uppgifter okända. För detta finns flera lösningar:

  • Automatiskt vänd bild och igenomföra igenkännande
  • Semantisk jämförelse av bokstäver och siffror med offline-AIoch en gång tränat AI-modell
  • AI-modellen med exempel på bildade remsor som tränats
  • Om det finns för få exempel att träna med: Synthetiskt skapa obegränsat många exempel med offline-AI+ traditionella metoder (brus, bildrotation, kvalitetsreducering, etc.)

AI for your company

Your AI can do more than ChatGPT.
Benefits:
  • Powerful and optimizable
  • Full data control
  • Fast proof of concept
  • Inexpensive
Free initial consultation:   Mail

Det är alltså inte bara möjligt att digitalisera textdokument (som även kan innehålla bilder) med Offline-AI. Det är också möjligt att automatiskt värdera bilder. Särskilt för försäkringsbolag borde detta vara intressant. De hittills samlade, ofta hundratals tusentals exemplar från praktiken kan användas som konfidentiella träningsdata för ett Offline-AI-system. Om det finns för få träningsdata finns möjligheten att skapa künstliga sådana träningsdata. Här kommer också offline-AItill nytta och ser redan fram emot att köra på er server i timmar, medan ni njuter av eftermiddags- eller helgutflykt.

Sammandrag

Med offline-AIkan dokument av olika slag digitaliseras. De skannade eller fotograferade dokumenten analyseras med AI. Informationen från text och bild extraheras med hjälp av AI. Till exempel kan de extraherade informationsen sedan med AI semantiskt sökas, sammanfattas, i lättare språk eller andra språk översättas.

Även en sökning efter liknande bilder är möjlig: Till ett inmatningsbild hittas de mest lika bilderna. Och det från semantisk synvinkel och inte som "förr" genom jämförande av bildpunkter.

Det enda som nu behövs för digitaliseringen är en bra skanner eller ett mobiltelefon med kamera, beroende på tillämpning.

Offline-AI håller data där de hör hemma, d.v.s. i ert företag. Dessutom erbjuder Offline-AI möjlighet att hämta in data från internet eller kommunicera med era andra IT-system.

Resultaten är för många användningsfall tydligt bättre än vad ChatGPT någonsin kan vara. Även flerspråkighet är inget problem, även med företagsägda ordböcker. Specialbegrepp från försäkringsbranschen, medicinen eller juridiken kan således tas tillräckligt i beaktande.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Microsofts synder