Die Digitalisierung von Dokumenten funktioniert mit Offline-KI beliebig gut. Offline-KI ist eine lokal laufende KI, die oft besser als ChatGPT, datenfreundlich und günstig ist. Dazu gehört das Erkennen von Texten und Bildern sowie die semantische Suche in diesen extrahierten Informationen. Der Showcase zeigt konkrete Details.
Was ist Offline-KI?
Manche verstehen vielleicht "Offline-GPT" besser. Offline-KI hat allerdings nichts mit OpenAI und anderen Drittanbietern zu tun.
Eine Offline-KI läuft auf einem eigenen Computer. Das kann entweder eine gekaufte Hardware oder eine Miet-Hardware sein. Offline bedeutet, dass die KI keine Daten an Dritten sendet. Die Offline-KI kann bei Bedarf auf das Internet zugreifen oder mit anderen IT-Systemen kommunizieren.
Offline-KI kann für viele Anwendungsfälle, wie beispielsweise für die Digitalisierung von Dokumenten, erheblich bessere Ergebnisse als mit ChatGPT und andere Cloud-Dienste produzieren. In Unternehmen geht es oft um tausende von Dokumenten. Die Kosten bei Cloud-Diensten sind oft unberechenbar und zudem bei vielen Anfragen teuer. Offline-KI bietet eine günstige Kosten-Flatrate. Die volle Datenkontrolle ist für viele ebenfalls ein Grund, ChatGPT oder Microsoft Azure nicht zu nutzen.
Offline-KI kann oft mehr als ChatGPT, ist günstiger und bietet volle Datenkontrolle sowie Online-Zugriffsmöglichkeiten.
Was bedeutet Digitalisierung von Dokumenten?
Digitalisierung bedeutet das Umwandeln von analogen in digitale Informationen. Oft handelt es sich dabei um das Konvertieren von Papierdokumenten in digitale Abbilder (Dateien). Dazu wird das Papierdokument eingescannt oder fotografiert. Danach wird das daraus entstandene Bild ausgewertet (auch bei einem Scan entsteht ein Bild!).
Am Beispiel eines Dokuments des Europäischen Datenschutzausschusses (EDSA) wird gezeigt, wie Offline-KI bei der Digitalisierung von Dokumenten helfen kann.

Die oben gezeigten Bilder stellen die Seiten eines PDF-Dokuments dar. Diese Bilder entstehen entweder durch Einscannen oder durch Umwandeln eines PDF-Dokuments in Einzelseiten.
Nachdem das Dokument eingescannt (oder fotografiert wurde), wird es mit Offline-KI ausgewertet. Dabei wird der enthaltene Dokumententext ermittelt. Weitergehende Verfahren erkennen auch Bilder und deren Inhalte.
Mit Offline-KI können sogar Bilder beschrieben werden. Hier ein Screenshot einer Folie zum Thema Offline-KI.

Die Offline-KI hatte nun die Aufgabe, zu beschreiben, was das Bild darstellt. Hier das Ergebnis:
a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image
Die deutsche Übersetzung liefert die Offline-KI auf Wunsch ebenfalls:
Eine schwarze und weiße Zeichnung eines Mannes mit Hörnern, IKEA-Manual, als D&D-Monster, eine AI-generierte Abbildung
Wer die ukrainische, türkische, spanische, italienische oder polnische Version benötigt, dem kann mit Offline-KI ebenfalls geholfen werden:
- Ukrainisch: Чорно-біле малювання чоловіка з рогами, посібник IKEA, як монстр D&D, а також зображення, згенероване AI
- Türkisch: bir adamın kulakları olan siyah ve beyaz bir çizim, ikea kılavuzu, d&d canavarı olarak, bir ai oluşturulmuş görüntü
- Spanisch: Un dibujo en blanco y negro de un hombre con cuernos, manual de IKEA, como un monstruo de D&D, una imagen generada por inteligencia artificial
- Italienisch: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
- Polnisch: rysunek czarno-biały mężczyzny z rogami, instrukcja IKEA, jako potwór D&D, obraz generowany przez AI
Die Übersetzungen wurden mit dem bisherigen Goldstandard, DEEPL, verifiziert und unverändert hier wiedergegeben.
Der nächste Schritt könnte das Erkennen von Abschnitten/Blöcken sein.

Die in der Abbildung gezeigten Blöcke wurden automatisch erkannt und markiert. Sie dienen als Vorstufe für eine leistungsfähige Erkennung von Text- und Bildinformationen.
Wie viele Informationen in solchen Blöcken stecken können, zeigt folgende Abbildung.

Die gezeigten Textabschnitte wurden vollautomatisch erkannt. Dem Anwender stehen nun mehrere Möglichkeiten zur Verfügung. Informationen können ebenso im Fließtext gefunden werden als auch mit strenger Suche. Die strenge Suche ermittelt nur Treffer für Abschnitte, die jeweils den gesamten Suchbegriff enthalten. Statt eines Suchbegriffs können auch Fragen an das Dokument gestellt werden. Der Anwender sieht am Ende aus Komfortgründen nur seine Suchmaske (Eingabefeld) sowie die Ergebnisse. Die oben gezeigten Abbildungen sieht er nur auf Wunsch.
Eigene Dokumente befragen: Mit Offline-KI nicht nur besser möglich als mit ChatGPT, sondern auch günstiger und mit voller Datenkontrolle.
Darüber hinaus ist es beispielsweise auch möglich, zu einer vorgegebenen Dokumentenseite die semantisch ähnlichen Seiten zu finden.
Im Beispiel hier wurden die Seiten gefunden, die zu einer Vorgabeseite (1. Seite links oben) optisch ähnlich sind. Optische Ähnlichkeit liegt in diesem Beispiel vor, wenn der grau hinterlegte Kasten in anderen Seiten auch vorkommt. Dies ist in den Seiten 3 bis 8 (von links nach rechts, von oben nach unten) der Fall. Als Gegenbeispiel wurde die Seite 2 als optisch unähnliche Textseite mit angezeigt.
Es können aber auch semantische Suchen nach Text ausgeführt werden. Die Suche nach Dokumenten und deren Seiten kann so leistungsfähig mit Offline-KI durchgeführt werden. Beispielsweise wurde im o.g. digitalisierten PDF-Dokument nach „personenbezogene Daten“ gesucht.
Einige der Treffer sind hier zu sehen:

Selbstverständlich kann die Offline-KI die Treffer direkt als Text anzeigen. Lediglich für das Beispiel wurden hier die Treffer in Form der Seiten-Screenshots dargestellt.
Ein Detailtreffer zu dieser Suchanfrage ist hier gezeigt:

Ohne weiteren Aufwand wurden auch Treffer gefunden, die das Gleiche meinen, aber eine andere Ausdrucksweise verwenden. Die Unschärfe zwischen „personenbezogene“ und „personenbezogener“ wurde automatisch durch die KI ausgeglichen. Dieses sehr einfache Beispiel kann nahezu beliebig leistungsfähig ausfallen.
Ein leistungsfähiges Beispiel für semantische Suche ist zum Frage-Antwort-Assistenten für den Dr. DSGVO Blog beschrieben.
Ähnlichkeitssuche
Wie wäre es, wenn man zu einem Bild die semantisch ähnlichsten Bilder finden könnte? Ein Bär ist ein Bär, eine Katze eine Katze. Egal, ob das jeweilige Tier (oder Objekt, falls andere Bilder) groß oder klein ist, links oder oben im Bild ist oder ob nur der Kopf oder eine Vollaufnahme zu sehen ist.
Für Dokumenten-Seiten ist das Ergebnis ähnlich beeindruckend:

Rechts im Bild die Seite aus einem PDF-Dokument, für die ähnliche Seiten gefunden werden sollen. Links im Bild die Seiten, die eine optische Ähnlichkeit aufweisen. Die Ähnlichkeit besteht hier aus dem Textfluss, aber vor allem aus dem grau hinterlegten Block. Wären Bilder im Ausgangsbild zu sehen, würden diese berücksichtigt. Stattdessen hätte man auch nach dem Text, der im Bild zu sehen ist, ähnliche Dokumente finden können. Die Möglichkeiten sind endlos.
Zum Abschluss noch ein kurzes Beispiel, dass Informationen auch in anspruchsvolleren Bildern erkannt werden können.
Das Eingabebild ist Folgendes. Es wurde mit einem alten Handy, in niedriger Auflösung und unter schlechten Lichtverhältnissen angefertigt:

Die untrainierte Offline-KI hat in einer Dreivierteilsekunde auf einem Laptop folgende Angaben erkannt, markiert und extrahiert:

Die Kernangaben wurden erkannt und deren Position zurückgegeben. So konnte die Seriennummer 49865 korrekt und die Nummer A055247 fast korrekt erkannt werden (das „A“ wurde als „4“ erkannt, was auch einem Menschen kaum erkennbar ist).
Wie zu sehen ist, sind ein paar Angaben unerkannt. Hierfür gibt es mehrere Lösungen:
- Bild automatisch drehen und Erkennung erneut durchführen
- Semantischer Vergleich der Buchstaben und Ziffern mit Offline-KI und einmal trainiertem KI-Modell
- KI-Modell mit Beispielen von Reifen-Fotos trainierten
- Falls zu wenige Beispiele für Training vorhanden sind: Synthetisch beliebig viele Beispiele mit Offline-KI + herkömmlichen Methoden (Rauschen, Bilddrehung, Qualitätsreduzierung, …) generieren
Es ist also nicht nur möglich, Textdokumente (die auch Abbildungen enthalten können) mit Offline-KI zu digitalisieren. Es ist auch möglich, Fotos automatisch auszuwerten
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks
KI-Beratung, KI-Lösungen
Leistungsangebot:
- Erstberatung inkl. Machbarkeitsaussagen
- Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
- KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

gekennzeichnet.


Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die 