Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Mostra di Offline-AI: digitalizzazione di documenti

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Articolo in formato PDF (solo per gli abbonati alla newsletter)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

La digitalizzazione di documenti funziona benissimo con l'Intelligenza Artificiale offline. L'IA offline è un'intelligenza artificiale che funziona localmente, spesso meglio di ChatGPT, più data-friendly e a buon mercato. Ciò include la riconoscimento di testi e immagini nonché la ricerca semantica in queste informazioni estratte. Lo showcase mostra dettagli concreti.

Che cos'è l'intelligenza artificiale offline?

Alcuni potrebbero capire meglio il concetto di "Offline-GPT". La AI offline non ha però nulla a che fare con OpenAI e altri terzi fornitori.

Una AI offline funziona su un proprio computer. Ciò può essere sia una hardware acquistata che una hardware noleggiata. Offline significa che la AI non invia dati a terzi. La AI offline può richiedere l'accesso all'internet o comunicare con altri sistemi IT.

La AI offline può produrre risultati significativamente migliori per molti casi di utilizzo, ad esempio la digitalizzazione di documenti, rispetto a ChatGPT e altri servizi cloud. In azienda spesso si tratta di migliaia di documenti. I costi con i servizi cloud sono spesso imprevedibili e inoltre costosi per molte richieste. La AI offline offre una tariffa di costo fissa. La piena controllo dei dati è un motivo per molti per non utilizzare ChatGPT o Microsoft Azure.

La AI offline può spesso fare di più di ChatGPT, è più economica e offre controllo totale dei dati nonché accesso online.

Che cosa significa digitalizzare documenti?

La digitalizzazione significa il trasformare di informazioni analogiche in digitali. Spesso si tratta del convertire di documenti cartacei in immagini digitali (file). Per farlo, si scansiona o si fotografa il documento cartaceo. Successivamente si valuta l'immagine che ne è derivata (anche al momento dello scansionamento viene creata un'immagine!).

Con l'esempio di un documento del Comitato europeo per la protezione dei dati (EDSA) viene mostrato come la AI offline possa aiutare nella digitalizzazione dei documenti.

Ein PDF-Dokument des Europäischen Datenschussausschusses (EDSA) als Beispiel.

Le immagini sopra mostrate rappresentano le pagine di un documento PDF. Queste immagini possono essere ottenute tramite scansione o tramite conversione di un documento PDF in singole pagine.

Dopo aver scansionato (o fotografato) il documento, viene valutato con l'AI offline. In questo modo si determina il testo contenuto nel documento. Procedimenti più avanzati riconoscono anche le immagini e i loro contenuti.

Con l'Intelligenza Artificiale offline, anche le immagini possono essere descritte. Ecco uno screenshot di una slide sul tema Intelligenza Artificiale offline.

Beispielbild für Erkennung von Bildinhalten durch eine Offline-KI. Einer Präsentation zum Thema "Offline-KI" entnommen.

La AI offline aveva ora il compito di descrivere cosa rappresenta l'immagine. Ecco il risultato:

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

La traduzione tedesca offre anche offline la AI a richiesta:

Una rappresentazione a colori nero e bianco di un uomo con corna, manuale IKEA, come mostro del gioco D&D, una immagine generata da AI

Chi ha bisogno della versione ucraina, turca, spagnola, italiana o polacca può essere aiutato anche con l'Offline-AI:

  • Ukrainisch: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
  • un uomo con le orecchie di un disegno nero e bianco, una guida IKEA, un mostro D&D come, un'immagine creata per formare un AI_
  • Spagnolo: Un disegno in bianco e nero di un uomo con corna, manuale di IKEA, come un mostro di D&D, un'immagine generata da intelligenza artificiale_
  • Italiano: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
  • Polacco: rysunek czarno-biały mężczyzny z rogami, istruzioni IKEA, come mostro D&D, immagine generata da AI

Le traduzioni sono state verificate con lo standard d'oro attuale, DeepL, e riportate qui senza modifiche.

Il passo successivo potrebbe essere l'identificazione di sezioni/blocchi.

Abschnitte, die von der KI im PDF erkannt wurden.

I blocchi mostrati nell'immagine sono stati riconosciuti e contrassegnati automaticamente. Sono una fase preliminare per un'efficace rilevamento di informazioni testuali e visive.

Quante informazioni possono essere contenute in tali blocchi è mostrato dall'immagine seguente.

Mit KI automatisch erkannte Blöcke auf diversen Seiten eines PDF-Dokuments (Auszug).

I testi mostrati sono stati riconosciuti automaticamente. L'utente ha ora diverse possibilità a disposizione. Le informazioni possono essere trovate sia nel testo normale che con ricerca rigorosa. La ricerca rigorosa individua solo i risultati per le sezioni che contengono il termine di ricerca completo. Invece del termine di ricerca, può anche essere formulata una domanda al documento. L'utente vede alla fine, per comodità, solo la sua maschera di ricerca (campo di input) e i risultati. Le immagini mostrate sopra sono visibili solo su richiesta.

Documenti proprii consultare: con l'Intelligenza Artificiale offline non solo possibile meglio che con ChatGPT, ma anche più economico e con piena controllo dei dati.

Inoltre è possibile trovare le pagine semanticamente simili a una pagina di documento specificata.

Nell'esempio qui sopra sono state trovate le pagine che si assomigliano visivamente ad una pagina di riferimento (prima pagina a sinistra in alto). La somiglianza visiva è presente in questo esempio quando il rettangolo grigio compare anche nelle altre pagine. Ciò avviene nelle pagine 3-8 (da sinistra a destra, da sopra a sotto). Come controesempio è stata mostrata la pagina 2 come una pagina di testo non simile.

Si possono anche eseguire ricerche semantiche sui testi. La ricerca di documenti e delle loro pagine può essere effettuata con grande efficacia utilizzando l'Intelligenza Artificiale offline. Ad esempio, è stato cercato nel PDF digitalizzato sopra "dati personali".

Alcuni dei colpi sono qui da vedere:

Gefundene Dokumente für Suche nach "personenbezogene Daten".

Naturalmente, la AI offline può mostrare i risultati direttamente come testo. Solo per l'esempio sono stati rappresentati i risultati sotto forma di screenshot delle pagine.

Un colpo di precisione per questa ricerca è qui mostrato:

Ein Treffer im Detail: Die semantische Suche hat Unschärfen kompensiert und zeigt eine Trefferwahrscheinlichkeit mitsamt Markierung im Text (Original ist ein Bild!).

Senza ulteriori sforzi sono stati trovati anche colpi che significano la stessa cosa, ma utilizzano un linguaggio diverso. L'ambiguità tra "personale" e "relativo a una persona" è stata automaticamente bilanciata dalla IA. Questo esempio molto semplice può essere quasi altrettanto efficace in qualsiasi momento.

Un esempio efficace di ricerca semantica è il assistente per domande e risposte del Dr. DSGVO Blog descritto.

Ricerca di somiglianza

Come sarebbe se si potesse trovare un'immagine simile a un'altra? Un orso è un orso, un gatto è un gatto. Indipendentemente dal fatto che l'animale (o oggetto, se altri immagini) sia grande o piccolo, sia a sinistra o sopra nell'immagine, sia visibile solo la testa o una visione completa.

Per le pagine dei documenti, il risultato è altrettanto impressionante:

Rückwärtssuche: Zu einem Bild (hier: einer Dokumentenseite) werden die optisch am ähnlichsten Exemplare gefunden.

A destra nell'immagine la pagina di un documento PDF da cui si vogliono trovare pagine simili. A sinistra le pagine che presentano una somiglianza visiva. La somiglianza consiste nel flusso del testo, ma soprattutto nel blocco grigio evidenziato. Se nell'immagine originale fossero visibili immagini, queste sarebbero state prese in considerazione. Al contrario si sarebbe potuto cercare anche documenti con il testo presente nell'immagine. Le possibilità sono infinite.

Per concludere un breve esempio di come anche le informazioni possano essere riconosciute in immagini più complesse.

L'immagine di input è la seguente. È stata realizzata con un vecchio cellulare, a bassa risoluzione e in condizioni di luce pessime:

Bild eines Teils eines Reifens, in dem Text erkannt werden soll.

La AI offline non addestrata ha riconosciuto, segnalato e estratto le seguenti informazioni in una trentaduesima parte di secondo su un laptop:

Erkannte Angaben auf einem Reifen, automatisch eingefügte Bounding Boxes.

Le informazioni principali sono state riconosciute e la loro posizione restituita. In questo modo è stato possibile riconoscere correttamente il numero di serie 49865 e quasi correttamente il numero A055247 (il "A" è stato riconosciuto come "4", che anche per un uomo è poco distinguibile).

Come si può vedere, alcune informazioni sono sconosciute. Per questo ci sono diverse soluzioni:

  • Rimuovi l'auto-rotazione dell'immagine e ripeti la riconoscimento
  • Confronto semantico dei caratteri e dei numeri con intelligenza artificiale offline e un modello di IA già addestrato
  • Modello AI con esempi di foto pneumatici addestrati
  • Se ci sono troppo pochi esempi disponibili per l'allenamento: sintetizza in modo arbitrario molti esempi con Offline-AI + metodi tradizionali (rumore, rotazione dell'immagine, riduzione della qualità, ecc.)

AI for your company

Your AI can do more than ChatGPT.
Benefits:
  • Powerful and optimizable
  • Full data control
  • Fast proof of concept
  • Inexpensive
Free initial consultation:   Mail

È quindi possibile non solo digitalizzare documenti di testo (che possono anche contenere immagini) con l'Intelligenza Artificiale offline. È anche possibile valutare automaticamente le foto. In particolare per le assicurazioni dovrebbe essere interessante. I dati raccolti fino ad ora, spesso decine di migliaia, possono essere utilizzati come dati di training riservati per un sistema di Intelligenza Artificiale offline. Se non ci sono abbastanza dati di training, è possibile generare artificialmente tali dati di training. Anche in questo caso viene utilizzata l'Intelligenza Artificiale offline e si sta già godendo l'idea di poterla far funzionare per ore sul suo server mentre lei gode del fine settimana o della serata.

Conclusione

Con l'AI offline, possono essere digitalizzati documenti di vario tipo. I documenti scansionati o fotografati vengono analizzati con l'AI. Le informazioni del testo e dell'immagine vengono estratte con l'AI. Ad esempio, le informazioni estratte possono poi essere cercate semanticamente, riassunte, tradotte in una lingua più semplice o altre lingue tradotte.

Anche una ricerca di somiglianze con immagini è possibile: a un'immagine di input vengono trovate le più simili. E precisamente da un punto di vista semantico e non come "in precedenza" attraverso confronti di punti dell'immagine.

L'unico che serve per la digitalizzazione adesso è un buon scanner o uno smartphone con una fotocamera, a seconda dell'applicazione.

La AI offline tiene i dati dove spettano, cioè nel vostro azienda. Inoltre la AI offline offre la possibilità di ottenere i dati dall'internet o comunicare con gli altri sistemi IT.

I risultati sono nettamente migliori per molti casi di utilizzo rispetto a quanto potrebbe mai fare ChatGPT. Anche la multilinguismo non è un problema, neanche con dizionari aziendali propri. I termini tecnici del settore assicurativo, della medicina o delle scienze giuridiche possono essere così adeguatamente considerati.

Messaggi chiave

L'intelligenza artificiale offline può digitalizzare documenti in modo efficiente, economico e con il pieno controllo dei dati, superando i limiti dei servizi cloud come ChatGPT.

L'intelligenza artificiale può essere utilizzata per analizzare documenti PDF, riconoscere informazioni testuali e visive, e trovare pagine simili in base al contenuto o all'aspetto.

L'intelligenza artificiale offline può essere utilizzata per cercare informazioni in documenti digitali, immagini e persino riconoscere testo in immagini di bassa qualità.

L'intelligenza artificiale offline permette di digitalizzare documenti e analizzare immagini in modo autonomo, offrendo risultati migliori rispetto a soluzioni online come ChatGPT.

Ulteriori informazioni

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

I peccati di Microsoft