Jak użytkownik może zapobiec wykorzystywaniu jego danych w modelach sztucznej inteligencji?

Obecnie nie istnieje niezawodna metoda na całkowite zabezpieczenie danych ze stron internetowych przed ich użyciem w modelach sztucznej inteligencji. Chociaż pliki robots.txt są respektowane, wiele aplikacji AI ignoruje je lub inne prośby o wykluczenie.

Jakie problemem jest przypisanie danych jako danych osobowych lub nietrywialnych?

Automatyczne klasyfikowanie danych jako zawierające dane osobowe lub nie zawierające, z powodu niepewności w algorytmach i trudności z niezawodnym identyfikowaniem nazw własnych, nie zawsze jest możliwe. Powoduje to niepewność w zakresie przestrzegania przepisów o ochronie danych.

Jaka jest aktualna sytuacja dotycząca wykorzystania danych przez modele AI?

Modele sztucznej inteligencji są obecnie trenowane głównie poprzez wczytywanie milionów dokumentów z Internetu, z których wiele z nich może zawierać dane osobowe. Nie ma możliwości, aby to technicznie zablokować, a wiele aplikacji nie respektuje wniosków o wykluczeniu od operatorów stron internetowych.

Czy mogę wiarygodnie usunąć dane z istniejącego modelu AI?

Nie, obecnie nie jest możliwe usunięcie danych z modelu AI. Modele są tak skonstruowane, że dane są przechowywane na stałe i mogą być wykorzystywane do treningu. Nie ma metody, aby chirurgicznie usunąć dane.

Jak dokładnie działa filtrowanie odpowiedzi generowanych przez modele AI?

Modele sztucznej inteligencji wykorzystują filtry w celu usunięcia określonych informacji, takich jak nazwy osób lub numery telefonów, z ich odpowiedzi. Jednak ta filtrowanie nie zawsze jest niezawodne i dane mogą być obecne nawet wtedy, gdy nie są bezpośrednio podawane.

Dlaczego jest problematyczne, że modele AI uczą się z danych osobowych?

Modele sztucznej inteligencji uczą się z ogromnych zbiorów danych, które często zawierają dane osobowe. To rodzi pytania dotyczące zgody użytkowników na wykorzystanie ich danych, co może prowadzić do poważnych problemów z ochroną prywatności.

Czy można niezawodnie usuwać dane osobowe z modeli AI?

Nie, danez nie można niezawodnie usunąć z modeli AI. Oznacza to, że informacje, które wcześniej były w nich przechowywane, potencjalnie nadal mogą być odzyskiwane i wykorzystywane, co pogarsza problematykę ochrony danych.

Dlaczego krytykowana jest rygorystyczna regulacja modeli AI?

Wnioski o ścisłym regulowaniu modeli AI są uważane za nierealne i niepraktyczne. Szerokie rozpowszechnienie modeli AI na całym świecie sprawia, że całkowita kontrola i ograniczenia są praktycznie niemożliwe.

Inteligencja sztuczna: Dane osobowe w modelach AI

Wiele osób domaga się regulacji aplikacji AI. Dane masowe do szkolenia modeli AI nie powinny zawierać danych osobowych, nawet jeśli pochodzą z źródeł publicznych. Takie postulaty stawia np. federalny inspektor ochrony danych. Co to oznacza w praktyce?

Wprowadzenie

Model AI jest elektronicznym mózgiem, reprezentującym sieć neuronową. Połączenia między neuronymi reprezentują wiedzę, całkiem analogicznie do ludzkiego mózgu. Wiedza jest wprowadzana poprzez odczytanie milionów lub miliardów dokumentów online dostępnych za darmo. Do tych dokumentów zaliczają się przede wszystkim strony internetowe.

W wielu z tych tekstów, które wpadają do modeli AI, znajdują się dane osobowe. Te dane trafiają więc do treningowych danych jednej z inteligencji artficialnych. A co więcej: wydatki generowane przez chatbota na podstawie tych treningowych danych mogą również zawierać te dane osobowe.

Problemem jest z perspektywy niektórych, takich jak niemiecki federalny inspektor ochrony danych osobowych, że te dane osobowe trafiają do modeli AI. Z tych danych w modelach AI wynikają kilka pytań:

Czy właściciel danych (osoba, której dane dotyczą) wyraził zgodę na umieszczenie jego danych osobowych w określonym modelu AI? Szczególnie (pod warunkiem braku obowiązku zgody):
Jak może właściciel danych zablokować swoje dane przed użyciem w modelach AI (Opt-Out)?
Jak można usunąć dane z już istniejącego modelu AI?

Z tych pytań wynikają szereg problemów w praktyce, które zostaną następnie omówione.

Kiedy występują dane osobowe?

Czy dane są dotyczące osoby lub nie, często nie można ustalić tego, a jeśli można, to nie zawsze wiarygodnie. Człowiek rozpoznaje nazwiska osób często jako takie, ale nie zawsze. Maszyna (AI) może to zrobić jeszcze gorzej.

Dane osobowe bezpośrednie, takie jak imiona lub adresy pocztowe, nie mogą być w ogólności zidentyfikowane przez maszyny z należytym zaufaniem.

Jeśli numer rejestracyjny samochodu, numer telefonu lub nazwa firmy są danych osobowych, nikt nie wie (poza bliskim znajomym związku z samochodem, numerem telefonu lub firmą). Maszyna więc nie może wiedzieć, czy „Maier Ltd.” jest danych osobowych wartością. Nazwa firmy jest bowiem danych osobowych, jeśli można bezpośrednio lub pośrednio wywnioskować z niej dane osobowe (patrz Art. 4 pkt 1 RODO). Nazwa spółki z ograniczoną odpowiedzialnością jest oczywiście danych osobowych, jeśli można bezpośrednio wywnioskować z niej dane osobowe. Nazwa spółki z ograniczoną odpowiedzialnością z 50 pracownikami nie jest oczywiście danych osobowych. Jeśli jednak nazwa spółki z ograniczoną odpowiedzialności z 50 pracownikami zostanie wspomniana wraz z danymi osobowymi jednego z jej pracowników („największym pracownikiem naszej firmy”), to taka kombinacja danych osobowych, obejmująca nazwę spółki i dane osobowe pracownika, powinna być uznana za danych osobowych.

Dane automatycznie nigdy nie mogą być zaufanie jako całkowicie związane z osobą lub niezwiązane z osobą sklasyfikowane.
Algorytmy zatem zawsze wiążą się znacznymi niepewnościami przy rozpoznawaniu danych osobowych.

W szczególności w poprzednim przykładzie jest wyraźnie widoczne, że nikt i nic nie może być uważane za dane zupełnie wiarygodne, czy są one związane z konkretną osobą lub nie. Nawet numer telefonu nie można bezpośrednio sprawdzić, czy należy do osoby fizycznej, czy firmy oraz czy firma składa się z jednej osoby lub kilku.

Jak można zablokować dane przed ich użyciem w modelach AI?

Krótka odpowiedź brzmi: Nie. W każdym razie jest to obecny stan rzeczy. Istnieje po prostu żaden standard, który umożliwiałby ochronę danych na stronach internetowych przed dostępem osób trzecich. Czytanie strony publicznej jest oczywiście zawsze możliwe. To właśnie to jest sens strony internetowej: powinna być dostępna dla jak najszerszego kręgu ludzi. Programy robocze (Crawler, Scanner) są niemal nie do odróżnienia od czytelnika ludzkiego. Wiele stron internetowych nie ma nawet możliwości technicznej próby tego rodzaju. Tak oto jest stan obecny technologii.

Jedynym aktualnie praktycznym sposobem jest wykorzystanie pliku robots.txt. Ten plik pozwala administratorom stron internetowych określić, które serwisy wyszukiwawcze mają dostęp do ich treści i które nie. W miarę upływu czasu ten plik również jest respektowany przez niektóre aplikacje AI, które kradną treści.

Zablokowanie własnych danych przed ich użyciem w modelach AI jest technicznie niemożliwe.
Dziś i na dłużej.

Wiele aplikacji AI nie interesują się tym plikiem robots.txt ani jakimiś żądaniami wykluczenia ze strony właścicieli stron internetowych. Jest to raczej o życzeniach niż o technicznie trwalszych definicjach. Nawet jeśli ChatGPT np. twierdzi, że respektuje życzenia strony dotyczące zablokowania treści strony dla AI-u przez ChatGPT, jest to kwestia zaufania. Kto jeszcze wierzy w OpenAI i ChatGPT powinien przypomnieć sobie fakty:

Włodzimierz Komisja ds. ochrony danych osobowych we Włoszech zakazała ChatGPT-u, ponieważ OpenAI zapisuje dane użytkowników prawdopodobnie niezgodnie z prawem, np. wprowadzone przez nich informacje.
OpenAI nie poprosiła o zgodę użytkownika, lecz jedynie zaproponowała możliwość wycofania się (Opt-Out).
OpenAI teraz promuje ChatGPT Enterprise i preferencję "Zdobyć bezpieczeństwo i prywatność na poziomie przedsiębiorstwa". Tłumaczenie brzmi: "Róbimy tylko to, co nakazują przepisy o ochronie danych osobowych, jeśli kupicie wersję Enterprise".

Ktoś, kto wierzy firmom takim jak OpenAI, Google czy Microsoft, od razu pojawiając się informacji o ich "pokojowej" postawie, pomimo wcześniejszego wykazania przez nie szeregu niepokojących zachowań, działa Zadyskany, a nie racjonalnie.

Dane z crawli bazy danych takich jak The Pile lub Common Crawl czy C4 działają początkowo niezależnie od ChatGPT, są jednak później wykorzystywane przez ChatGPT i inne modele AI do szkolenia dużych modeli językowych. Tak więc z problemu staje się kilka problemów, a mianowicie jeden dla każdego odczytującego dane.

Jak usunięto dane z istniejącego modelu AI?

Krótka odpowiedź brzmi: nie. W każdym razie do tej pory nie istnieje żaden sposób matematyczny, który pozwala na usunięcie danych z modelu AI z chirurgiczną precyzją (lub w ogóle).

Aktualnie jedyny sposób, aby usunąć dane z istniejącego modelu AI, polega na wyrzuceniu go i ponownym przeszkoleniu. Podczas nowego treningu nie będą już uwzględniane dane do usunięcia.

Z modelu AI nie można usunąć danych z istniejącego modelu.
Dziś i na dłużej.

Klingt ekstrem komplikowany i drogi. To jest dokładnie tak. Model AI od zera do zera trenować, jest szczególnie dla dużych modeli językowych bardzo czasochłonne, bardzo kosztowne i trwa wieczność nawet na ogromnych serwerach. Serwer AI zużywa bardzo dużo energii i jest bardzo drogi, ponieważ musi mieć co najmniej jedną bardzo drogą lub kilka drogich kart graficznych jednocześnie, aby móc wykonać w przyzwoitym czasie obliczenia, które inaczej są bardzo długotrwałe.

Jedną praktyczną, lecz nieatrakcyjną metodą pozyskiwania danych z systemu AI jest wykorzystanie filtru do usunięcia odpowiedzi modelu AI. Filtr usuwa wszystkie wystąpienia określonego imienia lub numeru telefonu. Jednakże, to nie jest możliwe w sposób zupełnie wiarygodny. Dane są również dostępne nawet jeśli nie zostały wyświetlone jako odpowiedź modelu AI. Analogicznie jest z sytuacją kiedy dawny kontakt wysyła e-mail o usunięciu danych, ale faktycznie dane nie zostały usunięte. Kiedy następna kontrola przez organ nadzorczy lub śledczy (co przyznajmy, może się tylko sporadycznie zdarzyć) lub kiedy następuje kolejne ujawnienie danych w wyniku ataku hakerskiego, to dla wszystkich stanie się oczywiste.

Co się zmienia dzięki AI?

Takie maszyny już od dłuższego czasu również wydają odpowiedzi z przeczytanych treści. Te odpowiedzi są prawdopodobnie niekiedy niezgodne z faktami. O tym się jednak jeszcze żadna komisja ochrony danych nie oburzyła, jak dotąd.

Chatboty sterowane przez AI mogą dać odpowiedzi w nowej formie, określanej jako abstrakcyjna. Zamiast cytatu użytkownik otrzymuje tekst w nowych słowach. W takim przypadku łatwo może dojść do błędnych lub fałszywych odpowiedzi.

W społecznych mediach liczba fałszywych informacji dotyczących osób nie jest zbyt niska. W związku z tym nie można całkowicie zrozumieć obecnego wzburzenia spowodowanego przez AI. Aktualne wypowiedzi mają tendencję do Aktionizmu.

Aby uratować honor wielu z nich, należy zauważyć, że Nieznane ("AI") wydaje się spowodować taką uczucie obawy, że wiele osób chciałoby na to coś zrobić. To, że z tego powodu rodzą się życzenia niezrealizowalne, jest podobne do § 26 TDDDG, który został jednak wprowadzony przez lobbow do prawa.

Kontrola nad własnymi danymi

Fakt jest taki, że nikt nie ma technicznego nadzoru nad swoimi danymi, od momentu kiedy one mogą trafić do rąk obcych, np. poprzez opublikowanie na stronie internetowej lub wykorzystanie danych na platformie mediów społecznych.

Prawdopodobnie przez kontrolę nad swoimi danymi, Bundesbezpieczeństwo danych ma na myśli określone platformy, na których osoba jako właściciel danych posiada konto. Chociaż jest to istotne i ważne, nie dotyczy ono jednak nic specjalnie związanych z AI. Bez wątpienia wszystkie dane osobowe powinny być przetwarzane jedynie zgodnie z RODO, czy to za pomocą AI lub inaczej.

Podsumowanie

Dane osobowe nie mogą być zawsze identyfikowane jako takie. Nie udało się tego osiągnąć ani człowiekowi, ani maszynie. Tak będzie na zawsze, chyba że definicja Art. 4 Nr. 1 RODO, która definiuje, co to są dane osobowe, zmieni się.

Dane nie można zablokować przed użyciem w modelach AI. Ten problem byłby rozwiązywalny jedynie na poziomie prawnym. Technicznie nigdy nie jest on bezpieczny. Zamiast tego należy polegać na tym, że krawelery będą respektować zalecenia (żądania!) strony internetowej. Wtedy jest prawdopodobniej bardziej bezpiecznie polegać na Microsoftu, pomimo masowych luków w bezpieczeństwie, które towarzyszą temu przedsiębiorstwu i są ignorowane oraz bagatelizowane.

Sztuczna inteligencja nie może być zadowalająco uregulowana, takiegoż przekonujący jest ten wypadek.
Życzenia nie zmieniają obiektywnych granic rzeczywistości.

Dane nie mogą być usunięte z istniejących modeli AI. Ten problem może być teoretycznie rozwiązany. Bardziej prawdopodobne jest, że modele AI będą wkrótce „prostymi” ponownie obliczane, gdyż sprzęt oraz chipsy do kart graficznych (GPUs) stają się coraz szybsze i tanie.

Wynik

Chęć regulacji AI jest zrozumiała. Jednak prowadzi ona do żądań, które są niezrealizowalne i praktycznie niemożliwe do spełnienia. Czy to zostanie przyjęte, aby stworzyć wrażenie wywiązania się ze swoich obowiązków politycznych lub czy jest to brak znajomości tematu, pozostaje bez znaczenia.

Jeśli dane są osobowe, nie można ogólnie zdecydować. Może pomoże analiza międzygwiezdnego?

Jedna sztuczna inteligencja zachowuje się tak samo jak człowiek. Ludzie są zwykle niewierni. To można zaobserwować już przy następnej umówionej spotkaniu. Nawet tacy zwani "ekspertami" często dochodzą do błędnych lub złych wyników. Dlaczego powinno być inaczej w przypadku programu komputerowego, który imituje funkcję inteligencji człowieka?

Zamiast stawiania ogólnych niezrealizowalnych żądań, mogłyby najpierw bardzo duże firmy być starannie i konsekwentnie szybko i boleśnie sankcjonowane. Z uzyskanych wiedzy można potem dalsze działania wywnioskować.

Niezależnie od rodzaju przyszłych zasad postępowania na rynku należy zauważyć, że ogromne możliwości, zarówno pozytywne jak i negatywne, wynikające z aplikacji AI nie mogą być już zahamowane. Każdy może w każdej chwili pod swoim biurkiem stworzyć model AI lub pobrać i skorzystać z istniejącego. Byłoby wysoce sprzeczne, gdyby te modele AI były wolne od użycia na całym świecie, ale nie w Niemczech czy UE.

Alle Bilder in diesem Beitrag wurden von einem Computer-Programm erzeugt. Verwendet wurde das selbst entwickelte KI-System von Dr. DSGVO, ähnlich zu Midjourney. Die Bilder dürfen auf Webseiten frei verwendet werden, mit der Bitte, eine Verlinkung auf diesen Blog zu setzen.