La digitalizzazione di documenti funziona benissimo con l'Intelligenza Artificiale offline. L'IA offline è un'intelligenza artificiale che funziona localmente, spesso meglio di ChatGPT, più data-friendly e a buon mercato. Ciò include la riconoscimento di testi e immagini nonché la ricerca semantica in queste informazioni estratte. Lo showcase mostra dettagli concreti.
Che cos'è l'intelligenza artificiale offline?
Alcuni potrebbero capire meglio il concetto di "Offline-GPT". La AI offline non ha però nulla a che fare con OpenAI e altri terzi fornitori.
Una AI offline funziona su un proprio computer. Ciò può essere sia una hardware acquistata che una hardware noleggiata. Offline significa che la AI non invia dati a terzi. La AI offline può richiedere l'accesso all'internet o comunicare con altri sistemi IT.
La AI offline può produrre risultati significativamente migliori per molti casi di utilizzo, ad esempio la digitalizzazione di documenti, rispetto a ChatGPT e altri servizi cloud. In azienda spesso si tratta di migliaia di documenti. I costi con i servizi cloud sono spesso imprevedibili e inoltre costosi per molte richieste. La AI offline offre una tariffa di costo fissa. La piena controllo dei dati è un motivo per molti per non utilizzare ChatGPT o Microsoft Azure.
La AI offline può spesso fare di più di ChatGPT, è più economica e offre controllo totale dei dati nonché accesso online.
Che cosa significa digitalizzare documenti?
La digitalizzazione significa il trasformare di informazioni analogiche in digitali. Spesso si tratta del convertire di documenti cartacei in immagini digitali (file). Per farlo, si scansiona o si fotografa il documento cartaceo. Successivamente si valuta l'immagine che ne è derivata (anche al momento dello scansionamento viene creata un'immagine!).
Con l'esempio di un documento del Comitato europeo per la protezione dei dati (EDSA) viene mostrato come la AI offline possa aiutare nella digitalizzazione dei documenti.

Le immagini sopra mostrate rappresentano le pagine di un documento PDF. Queste immagini possono essere ottenute tramite scansione o tramite conversione di un documento PDF in singole pagine.
Dopo aver scansionato (o fotografato) il documento, viene valutato con l'AI offline. In questo modo si determina il testo contenuto nel documento. Procedimenti più avanzati riconoscono anche le immagini e i loro contenuti.
Con l'Intelligenza Artificiale offline, anche le immagini possono essere descritte. Ecco uno screenshot di una slide sul tema Intelligenza Artificiale offline.

La AI offline aveva ora il compito di descrivere cosa rappresenta l'immagine. Ecco il risultato:
a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image
La traduzione tedesca offre anche offline la AI a richiesta:
Una rappresentazione a colori nero e bianco di un uomo con corna, manuale IKEA, come mostro del gioco D&D, una immagine generata da AI
Chi ha bisogno della versione ucraina, turca, spagnola, italiana o polacca può essere aiutato anche con l'Offline-AI:
- Ukrainisch: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
- un uomo con le orecchie di un disegno nero e bianco, una guida IKEA, un mostro D&D come, un'immagine creata per formare un AI_
- Spagnolo: Un disegno in bianco e nero di un uomo con corna, manuale di IKEA, come un mostro di D&D, un'immagine generata da intelligenza artificiale_
- Italiano: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
- Polacco: rysunek czarno-biały mężczyzny z rogami, istruzioni IKEA, come mostro D&D, immagine generata da AI
Le traduzioni sono state verificate con lo standard d'oro attuale, DeepL, e riportate qui senza modifiche.
Il passo successivo potrebbe essere l'identificazione di sezioni/blocchi.

I blocchi mostrati nell'immagine sono stati riconosciuti e contrassegnati automaticamente. Sono una fase preliminare per un'efficace rilevamento di informazioni testuali e visive.
Quante informazioni possono essere contenute in tali blocchi è mostrato dall'immagine seguente.

I testi mostrati sono stati riconosciuti automaticamente. L'utente ha ora diverse possibilità a disposizione. Le informazioni possono essere trovate sia nel testo normale che con ricerca rigorosa. La ricerca rigorosa individua solo i risultati per le sezioni che contengono il termine di ricerca completo. Invece del termine di ricerca, può anche essere formulata una domanda al documento. L'utente vede alla fine, per comodità, solo la sua maschera di ricerca (campo di input) e i risultati. Le immagini mostrate sopra sono visibili solo su richiesta.
Documenti proprii consultare: con l'Intelligenza Artificiale offline non solo possibile meglio che con ChatGPT, ma anche più economico e con piena controllo dei dati.
Inoltre è possibile trovare le pagine semanticamente simili a una pagina di documento specificata.
Nell'esempio qui sopra sono state trovate le pagine che si assomigliano visivamente ad una pagina di riferimento (prima pagina a sinistra in alto). La somiglianza visiva è presente in questo esempio quando il rettangolo grigio compare anche nelle altre pagine. Ciò avviene nelle pagine 3-8 (da sinistra a destra, da sopra a sotto). Come controesempio è stata mostrata la pagina 2 come una pagina di testo non simile.
Si possono anche eseguire ricerche semantiche sui testi. La ricerca di documenti e delle loro pagine può essere effettuata con grande efficacia utilizzando l'Intelligenza Artificiale offline. Ad esempio, è stato cercato nel PDF digitalizzato sopra "dati personali".
Alcuni dei colpi sono qui da vedere:

Naturalmente, la AI offline può mostrare i risultati direttamente come testo. Solo per l'esempio sono stati rappresentati i risultati sotto forma di screenshot delle pagine.
Un colpo di precisione per questa ricerca è qui mostrato:

Senza ulteriori sforzi sono stati trovati anche colpi che significano la stessa cosa, ma utilizzano un linguaggio diverso. L'ambiguità tra "personale" e "relativo a una persona" è stata automaticamente bilanciata dalla IA. Questo esempio molto semplice può essere quasi altrettanto efficace in qualsiasi momento.
Un esempio efficace di ricerca semantica è il assistente per domande e risposte del Dr. DSGVO Blog descritto.
Ricerca di somiglianza
Come sarebbe se si potesse trovare un'immagine simile a un'altra? Un orso è un orso, un gatto è un gatto. Indipendentemente dal fatto che l'animale (o oggetto, se altri immagini) sia grande o piccolo, sia a sinistra o sopra nell'immagine, sia visibile solo la testa o una visione completa.
Per le pagine dei documenti, il risultato è altrettanto impressionante:

A destra nell'immagine la pagina di un documento PDF da cui si vogliono trovare pagine simili. A sinistra le pagine che presentano una somiglianza visiva. La somiglianza consiste nel flusso del testo, ma soprattutto nel blocco grigio evidenziato. Se nell'immagine originale fossero visibili immagini, queste sarebbero state prese in considerazione. Al contrario si sarebbe potuto cercare anche documenti con il testo presente nell'immagine. Le possibilità sono infinite.
Per concludere un breve esempio di come anche le informazioni possano essere riconosciute in immagini più complesse.
L'immagine di input è la seguente. È stata realizzata con un vecchio cellulare, a bassa risoluzione e in condizioni di luce pessime:

La AI offline non addestrata ha riconosciuto, segnalato e estratto le seguenti informazioni in una trentaduesima parte di secondo su un laptop:

Le informazioni principali sono state riconosciute e la loro posizione restituita. In questo modo è stato possibile riconoscere correttamente il numero di serie 49865 e quasi correttamente il numero A055247 (il "A" è stato riconosciuto come "4", che anche per un uomo è poco distinguibile).
Come si può vedere, alcune informazioni sono sconosciute. Per questo ci sono diverse soluzioni:
- Rimuovi l'auto-rotazione dell'immagine e ripeti la riconoscimento
- Confronto semantico dei caratteri e dei numeri con intelligenza artificiale offline e un modello di IA già addestrato
- Modello AI con esempi di foto pneumatici addestrati
- Se ci sono troppo pochi esempi disponibili per l'allenamento: sintetizza in modo arbitrario molti esempi con Offline-AI + metodi tradizionali (rumore, rotazione dell'immagine, riduzione della qualità, ecc.)
AI for your company
- Powerful and optimizable
- Full data control
- Fast proof of concept
- Inexpensive
È quindi possibile non solo digitalizzare documenti di testo (che possono anche contenere immagini) con l'Intelligenza Artificiale offline. È anche possibile valutare automaticamente le foto. In particolare per le assicurazioni dovrebbe essere interessante. I dati raccolti fino ad ora, spesso decine di migliaia, possono essere utilizzati come dati di training riservati per un sistema di Intelligenza Artificiale offline. Se non ci sono abbastanza dati di training, è possibile generare artificialmente tali dati di training. Anche in questo caso viene utilizzata l'Intelligenza Artificiale offline e si sta già godendo l'idea di poterla far funzionare per ore sul suo server mentre lei gode del fine settimana o della serata.
Conclusione
Con l'AI offline, possono essere digitalizzati documenti di vario tipo. I documenti scansionati o fotografati vengono analizzati con l'AI. Le informazioni del testo e dell'immagine vengono estratte con l'AI. Ad esempio, le informazioni estratte possono poi essere cercate semanticamente, riassunte, tradotte in una lingua più semplice o altre lingue tradotte.
Anche una ricerca di somiglianze con immagini è possibile: a un'immagine di input vengono trovate le più simili. E precisamente da un punto di vista semantico e non come "in precedenza" attraverso confronti di punti dell'immagine.
L'unico che serve per la digitalizzazione adesso è un buon scanner o uno smartphone con una fotocamera, a seconda dell'applicazione.
La AI offline tiene i dati dove spettano, cioè nel vostro azienda. Inoltre la AI offline offre la possibilità di ottenere i dati dall'internet o comunicare con gli altri sistemi IT.
I risultati sono nettamente migliori per molti casi di utilizzo rispetto a quanto potrebbe mai fare ChatGPT. Anche la multilinguismo non è un problema, neanche con dizionari aziendali propri. I termini tecnici del settore assicurativo, della medicina o delle scienze giuridiche possono essere così adeguatamente considerati.
Messaggi chiave
L'intelligenza artificiale offline può digitalizzare documenti in modo efficiente, economico e con il pieno controllo dei dati, superando i limiti dei servizi cloud come ChatGPT.
L'intelligenza artificiale può essere utilizzata per analizzare documenti PDF, riconoscere informazioni testuali e visive, e trovare pagine simili in base al contenuto o all'aspetto.
L'intelligenza artificiale offline può essere utilizzata per cercare informazioni in documenti digitali, immagini e persino riconoscere testo in immagini di bassa qualità.
L'intelligenza artificiale offline permette di digitalizzare documenti e analizzare immagini in modo autonomo, offrendo risultati migliori rispetto a soluzioni online come ChatGPT.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
