Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Pokaz AI offline: Cyfryzacja dokumentów

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Cyfryzacja dokumentów działa doskonale przy użyciu Offline-AI. Offline-AI to lokalnie działająca inteligencja artficyalna, która często jest lepsza od ChatGPT, bardziej danych dostępna i tańsza. Do tego należy zaliczyć rozpoznawanie tekstów i obrazów oraz semantyczne wyszukiwanie w tych wydobytych informacjach. Pokaz ten przedstawia konkretne szczegóły.

Co to jest Offline-AI?

Niektórzy mogą lepiej zrozumieć "Offline-GPT". Jednakże, inteligencja offline nie ma nic wspólnego z OpenAI i innymi dostawcami usług trzecich.

Jedna AI offline działa na własnym komputerze. Może być to zakupiona sprzętowa lub wynajmowana. Offline oznacza, że nie wysyła danych do innych osób. AI offline może w razie potrzeby uzyskać dostęp do Internetu lub komunikować się z innymi systemami IT.

Technologia offline-AImoże dla wielu przypadków zastosowania, takich jak cyfrowe przetwarzanie dokumentów, znacznie lepsze wyniki niż z ChatGPT i innymi usługami chmurowymi uzyskać. W firmach często chodzi o tysiące dokumentów. Koszty w usługach chmurowych są często niemożliwe do przewidzenia i przy wielu żądaniach drogie. Technologia offline-AIoferuje tanie opłaty za użytkowanie. Pełna kontrola nad danymi jest dla wielu również powód, dla którego nie korzystają z ChatGPT lub Microsoft Azure.

Technologia offline może często wykonać więcej niż ChatGPT, jest tańsza i oferuje pełną kontrolę nad danymi oraz dostęp online.

Co oznacza cyfryzacja dokumentów?

Cyfryzacja oznacza przekształcenie informacji analogowych w cyfrowe. Często chodzi tu o przekonwertowanie dokumentów papierowych na cyfrowe obrazy (pliki). Dla tego celu dokument papierowy jest skanowany lub fotografowany. Następnie wykorzystywane jest zdjęcie powstałe z tego procesu (podobnie jak przy skanie powstaje obraz!).

Przykładem dokumentu Europejskiego Komitetu Ochrony Danych Osobowych (EDSA) jest pokazanie, jak Offline-AI może pomóc w digitalizacji dokumentów.

Ein PDF-Dokument des Europäischen Datenschussausschusses (EDSA) als Beispiel.

Powyższe zdjęcia przedstawiają strony dokumentu PDF. Te zdjęcia powstają albo poprzez skanowanie, albo przez przekształcenie dokumentu PDF na oddzielne strony.

Po zeskanowaniu (lub sfotografowaniu) dokumentu, jest on wykorzystywany do oceny za pomocą Offline-AI. W tym procesie identyfikowany jest tekst zawarty w dokumencie. Dalsze procedury rozpoznają również obrazy i ich treść.

Z użyciem AI offline można nawet opisać zdjęcia. Oto zrzut ekranu slajdu dotyczącego AI offline.

Beispielbild für Erkennung von Bildinhalten durch eine Offline-KI. Einer Präsentation zum Thema "Offline-KI" entnommen.

Technologia offline miała teraz za zadanie opisać, co na zdjęciu widnieje. Oto wynik:

a black and white drawing of a man with horns, ikea manual, as a d & d monster, a an ai generated image

Niemiecka wersja dostarcza również offline AI na życzenie:

Czarna i biała rysunek mężczyzny z rogiem, instrukcja IKEA, jako potwór D&D, obraz generowany przez AI

Kto potrzebuje wersji ukraińskiej, tureckiej, hiszpańskiej, włoskiej lub polskiej, może również liczyć na pomoc Offline-AI:

  • Czarno-białe malowanie mężczyzny z rogami, podręcznik IKEA, jak potwór D&D, a także zdjęcie wygenerowane AI_
  • Türkisch: bir adamın kulakları olan siyah ve beyaz bir çizim, ikea kılavuzu, d&d canavarı olarak, bir ai oluşturulmuş görüntü
  • Narys w czarno-białym tonie mężczyzny z rogiem, instrukcja IKEA, jak potwór z D&D, obraz generowany przez sztuczną inteligencję_
  • Włoski: disegno a matita nero e bianco di un uomo con corna, manuale Ikea, come mostro D&D, immagine generata da AI
  • Czarno-biały rysunek mężczyzny z rogami, instrukcja IKEA, jako potwór D&D, obraz generowany przez AI_

Tłumaczenia zostały zweryfikowane przy użyciu dotychczasowego złotego standardu, DEEPL, i przedstawione bez zmian.

Następnym krokiem może być rozpoznawanie sekcji/bloków.

Abschnitte, die von der KI im PDF erkannt wurden.

Wizerunek przedstawia bloki, które zostały automatycznie rozpoznane i oznaczone. Są one pierwszym krokiem w skutecznej identyfikacji informacji tekstowych i graficznych.

Ile informacji w takich blokach może być ukryte, pokazuje następna ilustracja.

Mit KI automatisch erkannte Blöcke auf diversen Seiten eines PDF-Dokuments (Auszug).

Teksty przedstawione zostały automatycznie rozpoznane. Użytkownikowi teraz są dostępne kilka możliwości. Informacje można znaleźć zarówno w tekście, jak i przy użyciu szczerej wyszukiwarki. Szczera wyszukiwarka znajduje tylko wyniki, które zawierają cały wpisany przez użytkownika słowo kluczowe. Zamiast słowa kluczowego można również zadać pytanie dokumentowi. Użytkownik widzi na końcu wyłącznie swoją maskę wyszukiwania (pole wejściowe) oraz wyniki. Powyższe ilustracje widzi on tylko wtedy, gdy taką opcję wybierze.

Własne dokumenty pytają: Z offline AI nie tylko lepiej możliwe niż z ChatGPT, ale i taniej oraz z pełną kontrolą nad danymi.

Poza tym można również znaleźć strony semantycznie podobne do danej strony dokumentu.

W tym przykładzie znaleziono strony, które wizualnie przypominają stronę ustaloną (strona 1 z lewej góry). Wizualna podobieństwo występuje w tym przypadku, gdy na innych stronach znajduje się również kolumna o tle szarym. Jest to widoczne na stronach od 3 do 8 (od lewej do prawej, od góry do dołu). Przykładem strony niepodobnej jest strona nr 2 z tekstem.

Można również wykonywać semantyczne wyszukiwania w tekście. Wyszukiwanie dokumentów i ich stron może być tak efektywnie przeprowadzone przy użyciu Offline-AI. Na przykład, w powyżej wymienionym digitalizowanym pliku PDF szukano "danych osobowych".

Niektóre z trafień są tutaj do zobaczenia:

Gefundene Dokumente für Suche nach "personenbezogene Daten".

Oczywiście offline-AImoże pokazać wyniki bezpośrednio jako tekst. W przykładzie zostały one przedstawione w formie zrzutów ekranu stron.

Poniższy wynik dotyczący tej wyszukiwarki jest przedstawiony:

Ein Treffer im Detail: Die semantische Suche hat Unschärfen kompensiert und zeigt eine Trefferwahrscheinlichkeit mitsamt Markierung im Text (Original ist ein Bild!).

Bez dodatkowego wysiłku znaleziono trafienia, które oznaczają to samo, ale używają innej formy wyrażenia. Niepewność między "osobistym" a "osobowo związonym" została automatycznie uzupełniona przez AI. To bardzo proste przykład może być niemal nieograniczony w swojej sprawności.

Przykładem skutecznego zastosowania wyszukiwania semantycznego jest asystent pytanie-odpowiedź dla bloga Dr. DSGVO opisany w.

Szukanie podobieństw

Czy nie byłoby możliwe znalezienie na zdjęciu zdjęć najbardziej podobnych semantycznie? Niedźwiedź jest niedźwiedziem, kotem jest kotem. Bez względu na to, czy zwierzę (lub przedmiot, jeśli chodzi o inne zdjęcia) jest duże lub małe, lewe lub górne w zdjęciu, czy tylko głowa lub pełna fotografia jest widoczna.

Dla stron dokumentów wynik jest podobnie imponujący:

Rückwärtssuche: Zu einem Bild (hier: einer Dokumentenseite) werden die optisch am ähnlichsten Exemplare gefunden.

W prawym dolnym rogu zdjęcia widzimy stronę z pliku PDF, na której szukamy podobnych stron. W lewym dolnym rogu widzimy strony, które mają optyczną podobieństwo. Zgodność polega tu na przepływie tekstu, ale głównie na tym, co jest wstęgowane na tle szarem. Jeśli zdjęcie zawierałoby obrazy, te byłyby brane pod uwagę. Zamiast tego można było również szukać dokumentów o podobnym tekście widocznym na zdjęciu. Możliwości są nieograniczone.

Na koniec jeszcze krótkie przykład, że informacje można również rozpoznać w bardziej wymagających obrazach.

Obraz wejściowy jest następujący. Został wykonany za pomocą starego telefonu komórkowego, w niskiej rozdzielczości i pod złymi warunkami oświetleniowymi:

Bild eines Teils eines Reifens, in dem Text erkannt werden soll.

Niestrenowana Offline-AI rozpoznała i wydobyła następujące informacje w Dreivierteilsekunde na laptopie:

Erkannte Angaben auf einem Reifen, automatisch eingefügte Bounding Boxes.

Znane dane zostały rozpoznane i ich pozycja została zwrócona. W ten sposób można było poprawnie rozpoznać numer seryjny 49865 oraz prawie poprawnie rozpoznać liczbę A055247 (liczba "A" została rozpoznana jako "4", co jest niemal nieuchwytne dla człowieka).

Jak widać, kilka informacji jest niezauważalnych. Dla tego istnieją kilka rozwiązań:

  • Zautomatyzuj obrót zdjęcia i przeprowadź ponownie rozpoznawanie
  • Porównanie semantyczne liter i cyfr z użyciem offline-AIoraz raz trenowanego modelu AI
  • Model AI z przykładami zdjęć opon szkolił się
  • Jeśli dostępnych jest za mało przykładów do szkolenia: Syntetycznie generuj nieograniczoną liczbę przykładów z użyciem Offline-AI + tradycyjnymi metodami (szumowanie, obrót obrazu, redukcja jakości, …)

AI for your company

Your AI can do more than ChatGPT.
Benefits:
  • Powerful and optimizable
  • Full data control
  • Fast proof of concept
  • Inexpensive
Free initial consultation:   Mail

Jest więc możliwe, aby dokumenty tekstowe (które mogą zawierać również obrazy) zostały zdigitalizowane przy użyciu Offline-AI. Jest także możliwość automatycznego weryfikowania zdjęć. Szczególnie dla ubezpieczeń może to być interesujące. Zbierane dotychczas, często setki tysięcy przykładów z praktyki mogą zostać wykorzystane jako poufne dane szkoleniowe dla systemu Offline-AI. Jeśli dostępnych jest za mało danych szkoleniowych, istnieje możliwość generowania kunsztownie takich danych. Tutaj również Offline-AI może być użyta i już się cieszy na myśl o tym, aby przez kilka godzin biec na Twoim serwerze, podczas gdy Ty będziesz cieszyć się weekendem lub wieczorem.

Wnioski

Z pomocą Offline-AI można cyfrowo przetwarzać dokumenty różnego rodzaju. Dokumenty skanowane lub sfotografowane są analizowane za pomocą AI. Informacje z tekstu i obrazu są wyodrębniane przy użyciu AI. Na przykład wyodrębnione informacje mogą być następnie przeszukane semantycznie, zsumowane, uproszczone lub tłumaczone na inne języki przez AI.

Można również przeprowadzić wyszukiwanie podobieństwa za pomocą zdjęć: do jednego zdjęcia znajdują się najbardziej podobne zdjęcia. A zatem z punktu widzenia semantycznego, a nie jak "wcześniej" poprzez porównywanie pikseli.

Jedyne to, czego teraz potrzebuje digitalizacja, to dobry skaner lub telefon z kamerą, w zależności od przypadku użycia.

Offline-AI przechowuje dane tam, gdzie należą się one, czyli w Twoim przedsiębiorstwie. Ponadto Offline-AI umożliwia pobieranie danych z Internetu lub komunikowanie się z innymi systemami IT.

Wyniki są dla wielu przypadków użycia znacznie lepsze niż ChatGPT może być kiedykolwiek. Nie ma również problemu z wielojęzycznością, nawet przy własnych słownikach firmowych. Specjalistyczne terminy z dziedziny ubezpieczeń, medycyny lub nauki prawa mogą być w ten sposób odpowiednio uwzględnione.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Grzechy Microsoftu