Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Inteligencja sztuczna: Dane osobowe w modelach AI

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Wiele osób domaga się regulacji aplikacji AI. Dane masowe do szkolenia modeli AI nie powinny zawierać danych osobowych, nawet jeśli pochodzą z źródeł publicznych. Takie postulaty stawia np. federalny inspektor ochrony danych. Co to oznacza w praktyce?

Wprowadzenie

Model AI jest elektronicznym mózgiem, reprezentującym sieć neuronową. Połączenia między neuronymi reprezentują wiedzę, całkiem analogicznie do ludzkiego mózgu. Wiedza jest wprowadzana poprzez odczytanie milionów lub miliardów dokumentów online dostępnych za darmo. Do tych dokumentów zaliczają się przede wszystkim strony internetowe.

W wielu z tych tekstów, które wpadają do modeli AI, znajdują się dane osobowe. Te dane trafiają więc do treningowych danych jednej z inteligencji artficialnych. A co więcej: wydatki generowane przez chatbota na podstawie tych treningowych danych mogą również zawierać te dane osobowe.

Problemem jest z perspektywy niektórych, takich jak niemiecki federalny inspektor ochrony danych osobowych, że te dane osobowe trafiają do modeli AI. Z tych danych w modelach AI wynikają kilka pytań:

  1. Czy właściciel danych (osoba, której dane dotyczą) wyraził zgodę na umieszczenie jego danych osobowych w określonym modelu AI? Szczególnie (pod warunkiem braku obowiązku zgody):
  2. Jak może właściciel danych zablokować swoje dane przed użyciem w modelach AI (Opt-Out)?
  3. Jak można usunąć dane z już istniejącego modelu AI?

Z tych pytań wynikają szereg problemów w praktyce, które zostaną następnie omówione.

Kiedy występują dane osobowe?

Czy dane są dotyczące osoby lub nie, często nie można ustalić tego, a jeśli można, to nie zawsze wiarygodnie. Człowiek rozpoznaje nazwiska osób często jako takie, ale nie zawsze. Maszyna (AI) może to zrobić jeszcze gorzej.

Dane osobowe bezpośrednie, takie jak imiona lub adresy pocztowe, nie mogą być w ogólności zidentyfikowane przez maszyny z należytym zaufaniem.

Jeśli numer rejestracyjny samochodu, numer telefonu lub nazwa firmy są danych osobowych, nikt nie wie (poza bliskim znajomym związku z samochodem, numerem telefonu lub firmą). Maszyna więc nie może wiedzieć, czy „Maier Ltd.” jest danych osobowych wartością. Nazwa firmy jest bowiem danych osobowych, jeśli można bezpośrednio lub pośrednio wywnioskować z niej dane osobowe (patrz Art. 4 pkt 1 RODO). Nazwa spółki z ograniczoną odpowiedzialnością jest oczywiście danych osobowych, jeśli można bezpośrednio wywnioskować z niej dane osobowe. Nazwa spółki z ograniczoną odpowiedzialnością z 50 pracownikami nie jest oczywiście danych osobowych. Jeśli jednak nazwa spółki z ograniczoną odpowiedzialności z 50 pracownikami zostanie wspomniana wraz z danymi osobowymi jednego z jej pracowników („największym pracownikiem naszej firmy”), to taka kombinacja danych osobowych, obejmująca nazwę spółki i dane osobowe pracownika, powinna być uznana za danych osobowych.

Dane automatycznie nigdy nie mogą być zaufanie jako całkowicie związane z osobą lub niezwiązane z osobą sklasyfikowane.

Algorytmy zatem zawsze wiążą się znacznymi niepewnościami przy rozpoznawaniu danych osobowych.

W szczególności w poprzednim przykładzie jest wyraźnie widoczne, że nikt i nic nie może być uważane za dane zupełnie wiarygodne, czy są one związane z konkretną osobą lub nie. Nawet numer telefonu nie można bezpośrednio sprawdzić, czy należy do osoby fizycznej, czy firmy oraz czy firma składa się z jednej osoby lub kilku.

Jak można zablokować dane przed ich użyciem w modelach AI?

Krótka odpowiedź brzmi: Nie. W każdym razie jest to obecny stan rzeczy. Istnieje po prostu żaden standard, który umożliwiałby ochronę danych na stronach internetowych przed dostępem osób trzecich. Czytanie strony publicznej jest oczywiście zawsze możliwe. To właśnie to jest sens strony internetowej: powinna być dostępna dla jak najszerszego kręgu ludzi. Programy robocze (Crawler, Scanner) są niemal nie do odróżnienia od czytelnika ludzkiego. Wiele stron internetowych nie ma nawet możliwości technicznej próby tego rodzaju. Tak oto jest stan obecny technologii.

Jedynym aktualnie praktycznym sposobem jest wykorzystanie pliku robots.txt. Ten plik pozwala administratorom stron internetowych określić, które serwisy wyszukiwawcze mają dostęp do ich treści i które nie. W miarę upływu czasu ten plik również jest respektowany przez niektóre aplikacje AI, które kradną treści.

Zablokowanie własnych danych przed ich użyciem w modelach AI jest technicznie niemożliwe.

Dziś i na dłużej.

Wiele aplikacji AI nie interesują się tym plikiem robots.txt ani jakimiś żądaniami wykluczenia ze strony właścicieli stron internetowych. Jest to raczej o życzeniach niż o technicznie trwalszych definicjach. Nawet jeśli ChatGPT np. twierdzi, że respektuje życzenia strony dotyczące zablokowania treści strony dla AI-u przez ChatGPT, jest to kwestia zaufania. Kto jeszcze wierzy w OpenAI i ChatGPT powinien przypomnieć sobie fakty:

  1. Włodzimierz Komisja ds. ochrony danych osobowych we Włoszech zakazała ChatGPT-u, ponieważ OpenAI zapisuje dane użytkowników prawdopodobnie niezgodnie z prawem, np. wprowadzone przez nich informacje.
  2. OpenAI nie poprosiła o zgodę użytkownika, lecz jedynie zaproponowała możliwość wycofania się (Opt-Out).
  3. OpenAI teraz promuje ChatGPT Enterprise i preferencję "Zdobyć bezpieczeństwo i prywatność na poziomie przedsiębiorstwa". Tłumaczenie brzmi: "Róbimy tylko to, co nakazują przepisy o ochronie danych osobowych, jeśli kupicie wersję Enterprise".

Ktoś, kto wierzy firmom takim jak OpenAI, Google czy Microsoft, od razu pojawiając się informacji o ich "pokojowej" postawie, pomimo wcześniejszego wykazania przez nie szeregu niepokojących zachowań, działa Zadyskany, a nie racjonalnie.

Dane z crawli bazy danych takich jak The Pile lub Common Crawl czy C4 działają początkowo niezależnie od ChatGPT, są jednak później wykorzystywane przez ChatGPT i inne modele AI do szkolenia dużych modeli językowych. Tak więc z problemu staje się kilka problemów, a mianowicie jeden dla każdego odczytującego dane.

Jak usunięto dane z istniejącego modelu AI?

Krótka odpowiedź brzmi: nie. W każdym razie do tej pory nie istnieje żaden sposób matematyczny, który pozwala na usunięcie danych z modelu AI z chirurgiczną precyzją (lub w ogóle).

Aktualnie jedyny sposób, aby usunąć dane z istniejącego modelu AI, polega na wyrzuceniu go i ponownym przeszkoleniu. Podczas nowego treningu nie będą już uwzględniane dane do usunięcia.

Z modelu AI nie można usunąć danych z istniejącego modelu.

Dziś i na dłużej.

Klingt ekstrem komplikowany i drogi. To jest dokładnie tak. Model AI od zera do zera trenować, jest szczególnie dla dużych modeli językowych bardzo czasochłonne, bardzo kosztowne i trwa wieczność nawet na ogromnych serwerach. Serwer AI zużywa bardzo dużo energii i jest bardzo drogi, ponieważ musi mieć co najmniej jedną bardzo drogą lub kilka drogich kart graficznych jednocześnie, aby móc wykonać w przyzwoitym czasie obliczenia, które inaczej są bardzo długotrwałe.

Jedną praktyczną, lecz nieatrakcyjną metodą pozyskiwania danych z systemu AI jest wykorzystanie filtru do usunięcia odpowiedzi modelu AI. Filtr usuwa wszystkie wystąpienia określonego imienia lub numeru telefonu. Jednakże, to nie jest możliwe w sposób zupełnie wiarygodny. Dane są również dostępne nawet jeśli nie zostały wyświetlone jako odpowiedź modelu AI. Analogicznie jest z sytuacją kiedy dawny kontakt wysyła e-mail o usunięciu danych, ale faktycznie dane nie zostały usunięte. Kiedy następna kontrola przez organ nadzorczy lub śledczy (co przyznajmy, może się tylko sporadycznie zdarzyć) lub kiedy następuje kolejne ujawnienie danych w wyniku ataku hakerskiego, to dla wszystkich stanie się oczywiste.

Co się zmienia dzięki AI?

Takie maszyny już od dłuższego czasu również wydają odpowiedzi z przeczytanych treści. Te odpowiedzi są prawdopodobnie niekiedy niezgodne z faktami. O tym się jednak jeszcze żadna komisja ochrony danych nie oburzyła, jak dotąd.

Chatboty sterowane przez AI mogą dać odpowiedzi w nowej formie, określanej jako abstrakcyjna. Zamiast cytatu użytkownik otrzymuje tekst w nowych słowach. W takim przypadku łatwo może dojść do błędnych lub fałszywych odpowiedzi.

W społecznych mediach liczba fałszywych informacji dotyczących osób nie jest zbyt niska. W związku z tym nie można całkowicie zrozumieć obecnego wzburzenia spowodowanego przez AI. Aktualne wypowiedzi mają tendencję do Aktionizmu.

Aby uratować honor wielu z nich, należy zauważyć, że Nieznane ("AI") wydaje się spowodować taką uczucie obawy, że wiele osób chciałoby na to coś zrobić. To, że z tego powodu rodzą się życzenia niezrealizowalne, jest podobne do § 26 TDDDG, który został jednak wprowadzony przez lobbow do prawa.

Kontrola nad własnymi danymi

Fakt jest taki, że nikt nie ma technicznego nadzoru nad swoimi danymi, od momentu kiedy one mogą trafić do rąk obcych, np. poprzez opublikowanie na stronie internetowej lub wykorzystanie danych na platformie mediów społecznych.

Prawdopodobnie przez kontrolę nad swoimi danymi, Bundesbezpieczeństwo danych ma na myśli określone platformy, na których osoba jako właściciel danych posiada konto. Chociaż jest to istotne i ważne, nie dotyczy ono jednak nic specjalnie związanych z AI. Bez wątpienia wszystkie dane osobowe powinny być przetwarzane jedynie zgodnie z RODO, czy to za pomocą AI lub inaczej.

Podsumowanie

Dane osobowe nie mogą być zawsze identyfikowane jako takie. Nie udało się tego osiągnąć ani człowiekowi, ani maszynie. Tak będzie na zawsze, chyba że definicja Art. 4 Nr. 1 RODO, która definiuje, co to są dane osobowe, zmieni się.

Dane nie można zablokować przed użyciem w modelach AI. Ten problem byłby rozwiązywalny jedynie na poziomie prawnym. Technicznie nigdy nie jest on bezpieczny. Zamiast tego należy polegać na tym, że krawelery będą respektować zalecenia (żądania!) strony internetowej. Wtedy jest prawdopodobniej bardziej bezpiecznie polegać na Microsoftu, pomimo masowych luków w bezpieczeństwie, które towarzyszą temu przedsiębiorstwu i są ignorowane oraz bagatelizowane.

Sztuczna inteligencja nie może być zadowalająco uregulowana, takiegoż przekonujący jest ten wypadek.

Życzenia nie zmieniają obiektywnych granic rzeczywistości.

Dane nie mogą być usunięte z istniejących modeli AI. Ten problem może być teoretycznie rozwiązany. Bardziej prawdopodobne jest, że modele AI będą wkrótce „prostymi” ponownie obliczane, gdyż sprzęt oraz chipsy do kart graficznych (GPUs) stają się coraz szybsze i tanie.

Wynik

Chęć regulacji AI jest zrozumiała. Jednak prowadzi ona do żądań, które są niezrealizowalne i praktycznie niemożliwe do spełnienia. Czy to zostanie przyjęte, aby stworzyć wrażenie wywiązania się ze swoich obowiązków politycznych lub czy jest to brak znajomości tematu, pozostaje bez znaczenia.

Jeśli dane są osobowe, nie można ogólnie zdecydować. Może pomoże analiza międzygwiezdnego?

Jedna sztuczna inteligencja zachowuje się tak samo jak człowiek. Ludzie są zwykle niewierni. To można zaobserwować już przy następnej umówionej spotkaniu. Nawet tacy zwani "ekspertami" często dochodzą do błędnych lub złych wyników. Dlaczego powinno być inaczej w przypadku programu komputerowego, który imituje funkcję inteligencji człowieka?

Zamiast stawiania ogólnych niezrealizowalnych żądań, mogłyby najpierw bardzo duże firmy być starannie i konsekwentnie szybko i boleśnie sankcjonowane. Z uzyskanych wiedzy można potem dalsze działania wywnioskować.

Niezależnie od rodzaju przyszłych zasad postępowania na rynku należy zauważyć, że ogromne możliwości, zarówno pozytywne jak i negatywne, wynikające z aplikacji AI nie mogą być już zahamowane. Każdy może w każdej chwili pod swoim biurkiem stworzyć model AI lub pobrać i skorzystać z istniejącego. Byłoby wysoce sprzeczne, gdyby te modele AI były wolne od użycia na całym świecie, ale nie w Niemczech czy UE.

Computer-generiertes Bild
Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Sztuczna inteligencja dla interpretacji tekstów prawnych