Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort DSGVO-Probleme finden

Inteligencja sztuczna: Zalety własnych systemów AI w firmie, z przykładem praktycznym

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Dane są cennym surowcem, zwłaszcza w przypadku tajemnic biznesowych. Ale także poufne i dane osobowe powinny z przyczyn prawnych nie być udostępniane trzecim podmiotom (jak ChatGPT). Własne systemy AI oferują oprócz poufności korzyść w postaci dużej elastyczności i precyzyjnego dostosowania się do konkretnych wymagań. Raport praktyczny.

Wprowadzenie

Weil po prostu po prostu jest, brzmiał slogan jednego operatora telefonii komórkowej. Po prostu nie jest tak, można często powiedzieć przy aplikacjach intensywnie korzystających z danych. Ochronę danych interesuje wielu rzadko. Gdy chodzi o dane pracowników, jako ściśle poufne uregulowane umownie, podstawy patentowe lub inne tajemnice biznesowe, to firmy są bardziej wrażliwe. Ostatecznie nikt nie chce mieć kłopotu prawnego. Po prostu chęci wywieszenia wewnętrznej wiedzy przedsiębiorstwa na zewnątrz prawdopodobnie nie są tak powszechne.

Inteligencja sztuczna: Prawniczy podejście sprawdza, co może być dopuszczalne i wyjaśnia ryzyka. Techniczny podejście dostarcza systemy danych przyjazne i rozwiązuje wiele kwestii prawnych same.

Konstruktywnie postępować zamiast dyskutować jest dobrym planem, uważam. Prawnikom w każdym razie zawsze jeszcze coś do roboty pozostaje.

Prostym jest korzystać z ChatGPT. Niektórzy robią to zupełnie łatwo, z szkodą dla korzyści. Z tego wynika już, że myślenie jest trudniejsze niż fałszywe lub niewystarczające działanie. Nawet większe trudności są przyjmowane, jeśli one są wystarczająco małe i często się pojawiają. Lepiej 100x mała trudność z wysokim ogólnym nakładem niż 1x średnia trudność z dużo niższym ogólnym nakładem.

Niedawno Zoom jako dostawca oprogramowania do konferencji wideo sformułował nowe warunki korzystania. Z tym Zoom daje sobie prawo, aby quasi bez ograniczeń wykorzystywać dane uzyskane podczas konferencji w Zoomie. Wliczone są również rozpowszechnienie danych użytkownika, wraz z transkrypcjami i ich użyciem do uczenia maszynowego („szkolenia AI”). To by nie nastąpiło przy rozwiązaniu dostępnym w Niemczech. Tak samo by się to nie stało przy własnym systemie. Teraz wszyscy użytkownicy Zooma mają potencjalny problem.

Wszyscy użytkownicy Zoom mają potencjalny problem, ponieważ wolą rzekomo darmowe systemy trzecie niż rozwiązania danych przyjazne.

Dziękujemy za pomoc w podejmowaniu decyzji.

Kto nie ułatwia sobie życia, może przynajmniej skorzystać z Interfejs ChatGPT za pomocą własnego programu. Dzięki temu można stworzyć wiele aplikacji. ChatGPT poza niesamowitymi umiejętnościami przynosi jednak kilka nieuleczalnych problemów:

  • ChatGPT jest bardzo wolny.
  • Większość danych ChatGPT jest nieistotna dla aplikacji biznesowych (ciężki balast, sprzyja halucynacjom, opóźnia system, zwiększa jego wrażliwość na błędy).
  • Wszystkie dane trafiają do OpenAI i tym samym do Microsoftu.
  • Na ChatGPT danych nie jest bezpiecznie (patrz: dopiero późne wstawienie Opt-Out – zamiast zgody, ujawnienie danych, polityka firm amerykańskich itd.).
  • ChatGPT opiera się na przestarzałych wiadomościach ogólnokrajowych.
  • ChatGPT nie zna dokumentów Twojej firmy i nie powinien ich nigdy poznać.
  • ChatGPT koszt pieniędzy, a mianowicie w zależności od liczby przetwarzanych fragmentów tekstu (Tokenów). Wgranie i analiza większego pliku PDF już na samym początku może spowodować znaczne wydatki. Błędy programistyczne (pętla nieskończona lub rekurencja) mogą szybko zniszczyć każde budżet.
  • ChatGPT nie jest możliwie rozszerzalny.

Jeśli Twoje wpisy będą również wykorzystywane do treningu modelu AI przez kogoś innego, lub do dokładniejszej kalibracji, nie można zagwarantować ochrony danych osobowych i poufności. Model językowy uczy się nie tylko gramatyki i struktury języka, ale także wchłania wiedzę. Powstałe z tego niedoskonałości są raczej irytujące i szkodliwe niż problemem prawnym. Oznacza to jednocześnie, że te problemy nie mogą być rozwiązane prawnie.

Technologia offline jako rozwiązanie dla firm i urzędów.

Więcej informacji. ([1])

Podobne rzeczy można powiedzieć o Generatory obrazów takich jak Dall-E lub Midjourney. Wiele z nich opiera się na podejściu nazywanym Stable Diffusion. Niemal wszystkie procedury tego typu wykorzystują LAION-Dataset. Ten używa Common Crawl danych pobranych z internetu, aby znaleźć strony internetowe zawierające obrazy wraz opisami. Common Crawl jest ogromnym poborem niemal dowolnych stron internetowych. Jeśli więc jeden z Twoich obrazów trafił do tego zbioru danych, to nie w oryginale. Zamiast tego Twoje logo (lub zdjęcie produktu itp.) zostało przechowane w formie struktury w neuronach sztucznych modelu AI innego użytkownika. Wydobyć ten obraz z powrotem jest niemal nie możliwe. W rzeczywistości musiałby on ponownie przeprowadzić obliczenia. Czy to uczyni, jest wątpliwe. Po prostu szkolenie modelu AI jest ogromnie intensywnym procesem wymagającym skomplikowanych danych.

Własne systemy AI przedsiębiorstwa

Wszystkie wymienione powyżej problemy są problemem Twojej firmy, jeśli korzystacie z własnego systemu AI. Takie rodzaje systemów nazywam lokalnymi systemami AI lub autonomicznymi systemami AI. Te systemy nie potrzebują połączenia internetowego i mogłyby w najlepszym przypadku stać pod Waszym biurkiem.

Te zalety mają systemy sztucznej inteligencji własne przedsiębiorstwom:

  • Pełna kontrola danych: Określasz, które dane treningowe lub wcześniej przeszkolone modele AI będą używane.
  • Poproś o swoje dane i nie o dane z internetu: Zjedź swoje dokumenty i materiały firmowe.
  • Szybkość: W każdym razie Twoje systemy będą szybsze niż ChatGPT, jeśli chcą. Liczba użytkowników będzie znacznie mniejsza niż u popularnych platform AI. Ponadto możecie znacznie zmniejszyć ilość danych.
  • Dostosowanie dowolne: Więcej poniżej.
  • Duża różnorodność zastosowań: Sztuczna inteligencja w wyszukiwaniu semantycznym, rozpoznawaniu mowy, asystentach pytań i odpowiedzi, generowaniu obrazów, transkrypcji dźwięku, i wiele więcej. ([1])

Oto przykład z praktyki, co można osiągnąć za pomocą lokalnego systemu dla swojej firmy. Przykład działa na Low Cost-Serverze i działa. Jest jednak jeszcze w fazie rozwoju i może wyglądać znacznie lepiej niż obecnie. Zawisłość ukończenia nie jest dużym problemem i dotyczy tylko mojej priorytetów.

Semantyczna wyszukiwarka dla dokumentów firmowych

Przeszukuj swoje dokumenty, system biletów (np. Jira), strony intranetu i wiele więcej z użyciem inteligentnego systemu. Zrób z wszystkimi swoimi dokumentami zasob wiedzy i łącz swój wiedzy firmową w jednym elektronicznym mózgu.

Dla typów dokumentów standardowych takich jak PDF można łatwo używać procedur importu, które nie powodują u what dodatkowych kosztów. Chmura Adobe jest w tym punkcie zbędna. Wszystko, co może być automatycznie wykonane przez Wasze przedsiębiorstwo, sprawia, że dane są bardzo aktualne i daje więcej czasu na wolny czas wszystkim, którzy nie są maszynami.

Szukanie za pomocą AI nie jest typowym wyszukiwaniem, lecz szukaniem semantycznym. Inteligencje artificjalne są bardzo dobre w poszukiwaniu strukturalnym, semantycznym lub może nawet nieprecyzyjnym. Są jednak słabe w dokładnych wyszukiwaniach, chociaż te są możliwe. Jest to zresztą analogicznie jak u ludzi.

Dlatego proponuję podejście wieloetapowe, którego ChatGPT nie jest w stanie sprostać:

  1. Optymalizacja: Znajdowanie błędów pisarskich lub złych synonimów w słowach kluczowych. Tak więc „CommonCrawl“ staje się propozycją dla prawdopodobnie zamierzonego terminu.
  2. Szukaj za pomocą zwykłej wyszukiwarki internetowej. Jest to szczególnie sensowne, gdy szukasz po „Common Crawl“. AI jest tak podtrzymana przez taki rodzaj poszukiwań, że dostarcza złych wyników.
  3. Semantyczna wyszukiwarka: Ten rodzaj wyszukiwania jest szczególnie odpowiedni dla pytań, które są postawione w naturalny sposób. Przykład: „Czy z pomocą adresu IP serwera można ustalić jego lokalizację?
  4. Wydrukowanie odpowiedzi na zadane pytanie w własnych słowach. Na pytanie pod punktem 3 odpowiada moja AI np.: „Na podstawie adresu IP nie można zależnie ustalić lokalizacji serwera, ponieważ połączenie między adresem IP a serwerem może się zmieniać w każdej chwili. Istnieją jednak metody pozwalające na ustalenie lokalizacji serwera, takie jak np. użycie geolokalizacji IP lub porównanie danych metadanych.” AI z Bing odpowiada natomiast błędnie „Tak” i podaje źródła, które chcą uzasadnić błędną odpowiedź.
  5. Przeźroczystość: Pamiętając, że inteligencja artficyalna może w ogóle dać błędne odpowiedzi, jak pokazuje poszukiwanie Bing od Microsoftu, powinien być zaprojektowany odpowiednio przewodnik użytkownika. Mam tu na myśli nie tylko wskazówki, ale także wyświetlanie źródeł, które doprowadziły do wyniku, i więcej.

Dla poszukiwań w tym blogu używam od niedawna bardzo tanio serwer, który nawet nie ma kart graficznych zdolnych do pracy z AI. Bardziej zaawansowane karty graficzne (GPU-y z obsługą CUDA) firmy Nvidia są wykorzystywane w aplikacjach AI, ponieważ mogą wykonywać obliczenia znacznie szybciej niż standardowe procesory (CPUs).

Jeśli mój serwer jest dostępny, kliknięcie na linki wymienione w punktach 1 i 2 powyżej daje realne wyniki mojej wyszukiwarki. Możliwość semantycznej wyszukiwki nie mam, ponieważ nie miałem możliwości wynajęcia serwera dostępnego w internecie. Zamiast tego używam do tego celu wynajmowanego serwera AI (serwer numer dwa, który jest lepszy od tego złego serwera).

Poniższe wyniki wyświetla moja wyszukiwanie w pierwszej fazie, jeśli się pomyli i zostanie to rozpoznane:

Szukam z błędem pisarskim. Zostało pominięte spacje. (obraz został przetłumaczony automatycznie).

Nie jest niczym specjalnym poprawienie małego pomyłki pisarskiej. Jednakże sama wbudowana w WordPress wyszukiwarka, która została stworzona po kilku latach pracy rozwojowej, nie znajduje wyników, jeśli fraza szukana nie występuje w wpisach blogowych.

Moja wyszukiwarka rozpoznaje kilka błędów pisarskich. Dla tego zostało stworzone Słownik z pojęciami, które pojawiają się (prawie) we wszystkich moich wpisach. Tylko te słowa są „poprawne” lub odpowiednie dla wyszukiwania w moich dokumentach. Jako optymalizację błądny słowo szukajce jest poprawione i wprowadzone do pola wyszukiwania w prawdopodobnie poprawnej formie. Jeśli WordPress nie znajduje wyników, zostaje bezpośrednio wyświetlony wynik dla poprawionego słowa szukajcego. W przeciwnym razie zostaje podany konstruktyn informacja „Czy miałeś na myśli”.

Jeśli fraza wyszukiwawcza nie zawiera spacji, jest oczywiste, że nie jest to pytanie, które AI mogłaby kompetentnie odpowiedzieć. Zatem w tym przypadku również nie rozpoczyna się poszukiwań semantycznych, ale normalna wyszukiwanie.

Jeśli natomiast fraza wyszukiwawcza jest dłuższa, może być to pytanie. Najpierw wyświetlane są wyniki wyszukiwania WordPress (jeśli istnieją). Następnie następują wyniki wyszukiwania AI semantycznej. Przykład:

Wynik dla skomplikowanej kwestii. (obraz został przetłumaczony automatycznie).

Naprawdę interesujące jest to, że klasyczna wyszukiwarka znajduje wynik. Jest to prawdopodobnie tylko wtedy, gdy ta sama pytanie jest często używane do pokazania mojej AI. W wyniku wyszukiwarki Przezroczysty, że wynik pochodzi z klasycznej wyszukiwarki i 18 wyników z nieprecyzyjnej wyszukiwarki zostało znalezione. Nieprecyzyjna wyszukiwarka jest maszyną szukającą wektorów na minimalnym sprzęcie.

Jako przykład przeciwne tutaj wynik z poszukiwań w Bing:

Błędna odpowiedź w Bing, stan na 28.07.2023. (obraz został przetłumaczony automatycznie).

Jak widać, Bing podaje odpowiedź "Tak" na zadane pytanie. Odpowiedź jest fałszywa, ponieważ adresy IP często nie odnoszą się do określonego serwera i jeśli tak, to ich przyporządkowanie może wyglądać inaczej po sekundzie.

WordPress nie odnajduje wyników dla pytań o błędy pisarskie, takich jak poniższe: „Czy Cokies są danymi osobowymi?” Słowo „Cookies” zostało tutaj napisane z jednym „o” w miejsce dwóch. Natomiast wynik jest znaleziony przy użyciu wyszukiwania semantycznego za pomocą modelu językowego:

Semantyczna wyszukiwarka znajduje wyniki również przy pisarskich błędach w głównym słowie kluczowym. (obraz został przetłumaczony automatycznie).

Poszukiwanie AI jest z tym trafieniem skuteczne. Co tu nie jest wyraźnie widoczne, bo jeszcze nie zostało ukończone programowanie: Moje poszukiwanie AI dostarcza nie tylko jeden dokument jako wynik, ale może również dokładnie określić miejsce znalezienia w tekście. Ponieważ dla poszukiwania jest tworzony indeks nad dokumentami tak, że każdy dokument jest podzielony na łatwe kawałki. Te kawałki są lepiej przeszukiwalne niż długi tekst. Mogłem więc wyświetlić w wynikach poszukiwania odpowiedni kawałek, zamiast pokazywać cały dokument.

Znaleziony wpis precyzuje odpowiedź na pytanie, jak pokazuje następujący fragment tekstu wpisu:

Wyrysowanie z trafienia, które daje odpowiedź na postawioną pytanie. (obraz został przetłumaczony automatycznie).

Następna kategoria to wyświetlanie odpowiedzi bezpośrednio w wynikach wyszukiwania, a najlepiej abstrakcyjnie. Abstrakcyjne oznacza, że jest ona podsumowaniem w nowych słowach. Tak samo postępuje człowiek. Przedostatni etap byłby tzw. wydobycie podsumowania, które przypomina cytowanie.

Niedawno opisałem już zrealizowany Showcase dla asystenta odpowiedzi na pytania dla firmowych dokumentów. Szczegóły można znaleźć w linkowanym wpisie.

Wynik

Z użyciem systemu AI wewnętrznego firmy można rozwiązać wiele przypadków zastosowania. Takie systemy są przyjazny danych. Pozwalają na pełną kontrolę nad przepływem danych.

Przykład z Szukaj dokumentów jest tylko jednym z wielu przypadków użycia. Logika wyszukiwania nie jest jeszcze pełnie programowana, ale już pokazuje, co można osiągnąć. Biegnie na serwerze, który można wynająć za „jabłko i jajko” u niemieckiego dostawcy, jeśli własny serwer nie jest dostępny. Możliwości dostosowania do individuálních potrzeb są prawie bezgraniczne.

Kto chciałby inwestować kilka setów złotych miesięcznie, może kupić mocny serwer AI. Z pomocą którego można używać rozwiniętych modeli językowych również w języku polskim. Ale możliwe jest także masowe generowanie obrazów. Zamiast pięciokrotnie tworzyć zdjęcie za pomocą DALL-E, aż do momentu kiedy wynik będzie dobry, po prostu pozwalaj na generowanie setek zdjęć. Twoja AI uczy się nawet, które obrazy Ci odpowiadają i sortuje z nich złe wyniki.

Jak przy wszystkich usługach chmurowych, systemy AI trzecie nie są tylko problematyczne pod względem poufności, ale również w kwestii kosztów (Pay per use). Z lokalnymi systemami, które należą do Twojej firmy, nie ma tych kosztów. Placujesz tylko miesięczną opłatę za serwer, która może być wynajmowana lub kosztem działania. Te koszty są łatwe do przewidzenia i dla każdego będą atrakcyjne, kto naprawdę ma korzyści z takich systemów AI. Bez większych korzyści nie jest też stosowanie ChatGPT naprawdę sensowne.

Jeśli nie są problemem ochrona danych osobowych i poufności, możecie przynajmniej rozważyć programowe wykorzystanie interfejsu ChatGPT. Sztuczna inteligencja sprawia, że każdy problem jest w końcu możliwy do rozwiązania ekonomicznie, który dotąd nie był rozwiązywalny lub wymagał ogromnego wysiłku.

Jeśli chcielibyście skontaktować się ze mną, aby stworzyć własne systemy AI dla Waszego przedsiębiorstwa lub użyć interfejsu z systemem AI trzeciej strony w celu zmniejszenia ilości prac ręcznych, proszę nie wahajcie się. Użycie interfejsów do systemów AI trzecich może przynieść co najmniej częściowe rozwiązanie problemów z danymi. Na przykład dane osobowe mogą być automatycznie zmieniane w pewnym stopniu, aby chronić prywatność użytkowników.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Sztuczna inteligencja: Dlatego rewolucja AI jest największą rewolucją w historii ludzkości