Inteligencja sztuczna: Dzieła autorów i ich ochrona

Twórcy dostępnych online utworów mogą zgodnie z prawem wyrazić warunek dotyczący ich użycia. Utwory te mają być chronione przed wpływaniem do elektronicznych mózgów. Czy ten sposób działa? W artykule wymieniane są możliwości i ograniczenia.

Wprowadzenie

Ogromne umiejętności sztucznej inteligencji przewyższają często umiejętności średnio inteligentnego człowieka. Test Turinga uznaje się za zakończony pozytywnie. Ten test sprawdza, czy komputer jest tak inteligentny jak człowiek. Tak, to już on jest. Jak pokazuje ChatGPT, sztuczna inteligencja może nawet w niektórych dziedzinach przewyższyć ludzi, przynajmniej jeśli przyjąć średnią wartość dla wszystkich ludzi. Sztuczna inteligencja nie zna zmęczenia i może korzystać z coraz lepszej sprzętowej aparatury, co jest zupełnie inne niż u człowieka z jego bardzo ograniczonym mózgiem. Jedyne zalety ludzi to z mojego punktu widzenia sensorium oraz zdolność do poruszania się i obserwowania otoczenia. To się wkrótce zmieni na korzyść sztucznych systemów. ([1])

Modele AI mogą online teksty i obrazy autorów zużywać niemal bez ograniczeń, a to jest prawne zezwolenie. Ustawa daje autorom prawo do prawa autorskiego, które w praktyce nie istnieje. Powody są wyłącznie organizacyjnego i technicznego charakteru.

Tej niezwykłej umiejętności AI budzi strach. Twórcy martwią się, że ich prace zostaną pochłonięte i wykorzystane przez elektroniczne mózgowe urządzenie. Google już to zrobiło, tylko nie tak wielu się obawiało: ktoś wpisuje słowo kluczowe do maszyny wyszukiwawczej. Zamiast tego, że Twoja strona internetowa pojawi się w wynikach i możesz ją wykorzystać dla swoich celów, odpowiedź jest wyświetlana jako wyodrębniony fragment Twojego treści w maszynie wyszukiwawczej. Użytkownik nie trafia nawet na Twoją stronę internetową, ale zostaje wcześniej odłączony. Jesteś dostawcą treści i głupcem. Google jest zadowolone. Użytkownikowi to nie przeszkadza.

Z tego wynikał zapytanie o obowiązek zgody od wielu twórców dostępnych online utworów. Twórca powinien pozwolić, aby jego prace zostały wykorzystane przez AI. Inni żądają tylko tego, co przewidziane jest w prawie, czyli możliwości odrzucenia. Jest to uregulowane w § 44b ust. 3 UG i brzmi ono następująco:

Użycie poza ustęp 2 zdanie 1 [Kopie prawidłowo dostępnych utworów na potrzeby przetwarzania tekstowego i danych] jest dopuszczalne tylko wtedy, gdy twórcy nie zastrzegli sobie prawa do tego. Zastrzeżenie prawa do użycia przy dostępie online ma zastosowanie tylko wtedy, gdy jest ono przekazywane w formie maszynowalnej.
Art. 44b ust. 3 Ustawy o Prawie Autorskim

Dalej powielania utworów ochronionych przez autorskie prawa mają być usunięte, gdy nie będą już potrzebne. Nie jest to jednak problem, ponieważ jeśli przeczytasz tekst dobrze, wiedząc co on mówi, możesz sobie go wyobrazić bez oryginału. Tak samo działa inteligencja sztuczna.

Zastrzeżenie użytkowania z punktu widzenia technicznego

Dostępne online utwory są np. strony internetowe, pliki PDF powiązane za pomocą linków, obrazy, pliki audio, pliki tekstowe lub darmowe e-booki. Autorzy takich utworów nie mają zgodzić się na wykorzystanie ich (wnioskowanie o zgodę), ale tylko możliwość odmowy. Jeśli autor nie daje sygnału do wykluczenia, jego tekst może być przeczytany i użyty w celu analizy danych i szukania informacji (text and data mining) na mocy powołanej normy prawa. Pod tym procesami rozrzedzającymi rozumie się również zastosowania inteligencji artficyalnej. Z tą opinią nie jestem sam, a jest to oczywiste.

Oto tłumaczenie: Przypominam, że pojęcie Opcja wycofania się nie jest synonimem warunku użytkowania. Bo Opcja wycofania się działa również w przeszłości, a warunek użytkowania tylko w przyszłości. Jeśli warunek użytkowania został ustalony dopiero po wykonaniu przez kursora akcji odczytu, to nie ma on wpływu na tę konkretną akcję odczytu.

Jak wygląda technicznie możliwość odwołania się?

Dla wyszukiwarek i innych "crawlerów" istnieje już taka możliwość. Jest ona określona przez plik robots.txt. Plik ten opiera się na powszechnie ustalonej, szerzej rozpowszechnionej i ogólnie znanej konwencji. Każda wyszukiarka, która chce działać zgodnie z prawem, respektuje tę plik.

Plik robots.txt strony internetowej jest dostępny pod głównym ścieżką, np. pod adresem dr-dsgvo.de/robots.txt. Wygląda na moim blogu tak:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Uwaga: Dodatkowo używam dynamicznego ochrony bota, która również blokuje kilka serwisów wyszukiwawczych.

W mojej pliku robots.txt jest deklarowane, że Internet Archive nie powinno przeglądać mojej strony internetowej. To oznacza się przez agenta użytkownika o nazwie ia_archiver i dyrektywę Disallow (Zakaz). Tak samo zakazuję ChatGPT od crawlowania, jak można wywnioskować z mówiącego agenta użytkownika o nazwie ChatGPT-User.

Jaki nazwa użytkownika Agenta należy użyć do którejś wyszukiwarki, jakiego krawlaera i jakiej platformy AI nie jest znany ad hoc. Duże platformy publikują lub publikują nazwy swoich krawlaerów (agentów użytkowników). Krawlaer to program, który pobiera dostępne online treści.

Cały zasadniczy pomysł pliku robots.txt opiera się na konwencjach. Technicznie procedura jest bardzo prosta. Jeśli nie ma tej konwencji, to nie ma tej procedury.

Użycie zastrzeżenia dotyczącego dostępu do online dostępnych utworów przez AI jest dla twórców praktycznie niemożliwe. Powodem jest brak technicznej konwencji. Już przeszkolone modele AI nie biorą pod uwagę zastrzeżeń, które zostały ogłoszone dopiero po szkoleniu.
Odnosi się do art. 44b ust. 3 Ustawy o Prawie Autorskim.

Zarazem, chcielibyście wyłączyć nową platformę AI, która została przedstawiona w prasie wczoraj. Jak to zrobić? Początkowo nie znaliście tej platformy i nie mogliście więc szukać jej User-Agenta, który chcielibyście teraz wyłączyć. Choćby Roland lub Susi mogły stworzyć własne model AI i za pomocą własnego krawalera pobierać treści z internetu.

Powinni znaleźć techniczne nazwy dla wszystkich możliwych platform AI, w tym również dla mojej platformy, dla platform wszystkich Rolandów od 1 do 5000, dla platform AI wszystkich Susis od 1 do 13847, dla eksperymentów Elona, dla Twoich sąsiadów, dla wszystkich firm z branży AI ze Stanów Zjednoczonych itd.

Platformy AI można obecnie odizolować tylko pojedynczo i dopiero po zidentyfikowaniu istnienia platform dostępnych w internecie.
Fakty techniczne.

Jasne, żeby to się nie udało. Po pierwsze, nie znacie wszystkich platform AI. Po drugie, nie chcielibyście nawet poznać wszystkich platform AI, bo musielibyś cały czas badac i technicznie podłączać się do usługi, która również cały czas bada, a może być też kosztowna lub negatywnie wpływa na Twoją widoczność. Bo nie chcielibyście przecież zablokować wszystkich wyszukiwarek, tylko tych złych platform AI i może także złych wyszukiwarek.

Kiedyś będziemy mieli plik zablokowany, który mógłby wyglądać tak: Na końcu wierszy umieściłem fikcyjne daty jako komentarz, do których przypisuję odpowiedni wpis o zablokowaniu określonego AI-Crawlera.

#Your robots.txt file
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2024
Disallow: /

Można również zdefiniować wpisy ogólne przy użyciu znaków Joker'a. Z tym może być jednak wykluczone zbyt wiele krawlersów. Może też się okazać, że niektórzy krawlersi wciąż nie rozpoczęli działania.

Ale problem jest jeszcze większy, a przede wszystkim w co najmniej dwóch aspektach.

Siła rynkowa Google i Meta

Spróbowałem 31.07.2023 dowiedzieć się, jak nazywają technicznie krawalery AI od Google i Meta, aby móc je zablokować. Bard Google jest tak samo jak Meta LLAMA 2 znane modeli języka. Nie chcę, aby moje treści pojawiały się tam bez mojej zgody i wynagrodzenia. W końcu Google i Meta zarabiają na moich i waszych danych złotą nóżkę. Od mnie więc nie ma darmowych treści dla ich AI.

Google wyjaśnia w swoich informacjach o ochronie danych osobowych, które obowiązują od 01 lipca 2023 roku, następujące rzeczy:

Na przykład gromadzimy dane dostępne online lub w innych źródłach publicznych, aby trenować modele AI Google oraz rozwijać produkty i funkcje takie jak tłumacz Google, Bard i Cloud AI. Jeśli informacje o Twoim przedsiębiorstwie są dostępne na stronie internetowej, możemy je indeksować i wyświetlić w usługach Google.
Źródło: S. 32 z powyższych informacji o ochronie danych Google.

Jest prawie pewność, że Google używa swojego krawalera w celu wyszukiwarki do szkolenia swojej AI na podstawie przeczytanych treści. Google nie ma zamiaru dać nam i Tobie możliwość odmówienia. Jako dowód na to, podaję tutaj pytanie z forum pomocy technicznej Google z 29 marca 2023 roku:

Źródło: https://support.google.com/webmasters/thread/208449168/ist-ein-user-agent-f%C3%BCr-bard-bekannt?hl=de (obraz został przetłumaczony automatycznie).

Odpowiedź na tę ważną zagadkę nie ma nawet cztery miesiące po zapytaniu. Dodatkowo Google zablokował pytanie, przez co odpowiedź jest już niemożliwa. Nawet jeśli ktoś się dowiedział, jak wyłączyć Google AI-Bota, ta informacja nie pojawi się w formie odpowiedzi na forum wsparcia Googla.

U Meta (Facebook, Instagram, WhatsApp) wygląda to tak samo. Nie udało mi się znaleźć nazwy technicznej Meta-Crawlera, który jest używany do szkolenia modeli AI.

Zostaje więc tylko jedna możliwość (u Googlu): albo całkowicie zablokujcie bot Google i nie pojawiacie się już w wynikach wyszukiwania, albo pozwalajcie, aby Google używał waszych dostępnych online treści i dzieł dla każdego możliwego celu, który Google sobie zastrzega.

W przypadku gdy ktoś chce wykluczyć Google z swojej strony internetowej, oto instrukcja dla pliku robots.txt:

User-agent: Googlebot
Disallow: /

Jeśli jako wartość parametru Disallow podano głębszy ścieżkę, to blokada dotyczyć będzie tylko określonego obszaru Twojej strony internetowej. Istnieją więc tylko kilka sposobów na odparowanie manii zebrania danych przez Google. Poza tym uważam, że jest wspaniale, jeśli dodatkowo za pośrednictwem swojej strony internetowej przekazujecie do Google jeszcze więcej danych o użytkownikach Twojej strony i tym samym zwiększacie mocy Googla. Pracujecie ciężko, aby Google był coraz bardziej potęgą, a to wszystko bez wynagrodzenia i często bez podstawy prawnej. W końcu robicie pracę, instalując pluginy takie jak Google Fonts, Google Maps czy Google Analytics zamiast lokalnych czcionek, mapy bezpiecznej danych lub Matomo.

Google argumentuje z mojego punktu widzenia w następujący sposób:

Ochrona danych: „My, Google, nie przetwarzamy żadnych danych osobowych.” Google zdaje się nie wiedzieć, co znaczy przetwarzanie danych i wyjaśnia dlatego Google Tag Manager jako niezdolny do pracy.
Sztuczna Inteligencja:
- Spadaj a: Two dane osobowe pojawiają się w odpowiedzi AI Google Bard. Google powie: "Ale przecież udostępniliście te informacje publicznie. Pokazujemy tylko to, co każdy widzi, kto odwiedza waszą stronę."."
- Spadkobiercy: Twoje wpisy będą cytowane przez Google Bard jako odpowiedź na pytania użytkowników do Google-AI, ale w własnych słowach i nie jako istotne cytatowanie. Google powie prawdopodobnie: "Nasze wydatki nie są naruszeniem praw autorskich, bo przecież nie cytujemy Twoich treści w sposób istotny, lecz w zupełnie innych słowach"

Twórcy tekstów online często nie zdają sobie sprawę z przypadku 2 b). Przypadek 2 a) zawiera pewne istotne aspekty, które przedstawię poniżej.

Przechodzimy do następnego problemu dotyczącego autorów, którzy nie chcą, aby ich prace były wykorzystywane w AI.

Zakłamania działają w przyszłość

ChatGPT-4 opiera się na zestawie danych z września 2021 roku. Yes osobiście wiedziałem o nim dopiero w 2022 roku i tylko raz słyszałem o nim. Zatem dla większości ludzi nie byłoby możliwe określić zakazu korzystania z własnych utworów, który ChatGPT uniemożliwiałby użytkownikom korzystanie z własnych utworów.

Wszystkie treści, które zostały przeczytane przed ustawieniem blokadę ChatGPT lub innych modeli AI, są już dostępne w elektronicznym mózgu. Nie zmienia to faktu, że późniejsze blokadę autorstwa nie zmieni nic. Jego dzieła zostały już wykorzystane. Nowe utwory lub aktualizacje być może nie będą już wykorzystywane przez AI trzeciej strony.

Dane z modeli AI są niemal nieusuwalne

Zastrzeżenia dotyczące użycia utworów autorów nie mogą być tak łatwo i szybko rozpatrzone jak w tradycyjnych wyszukiwarkach, a może nawet nie można tego zrobić.

Samodzielnie nawet w dużych serwisach wyszukiwawczych może potrwać kilka dni lub tygodni, zanim zostanie wykonany wniosek o usunięcie. Mogę tu mówić ze swoim doświadczeniem. Niemieckie miasto miało awarię danych i poprosiło mnie o pomoc w wykasowaniu danych osobowych z dużych serwisów wyszukiwawczych. Ostatnie niepożądane wyniki były jeszcze po kilku tygodniach widoczne.

Wszyscy wiemy, że nikt nie jest zobowiązany do ponownego szkolenia modelu AI po pierwszym treningu. Bez ponownego szkolenia wszystkie dane, które zostały wcześniej przetworzone w model, pozostają w nim. Dane jednak nie są przechowywane w formie oryginalnej, ale ich strukturę lub istotę przechowuje się. Nie da się tego wyrazić bardziej precyzyjnie. Odwołuję się do ludzkiego mózgu i jego Płynny format pamięci dla informacji.

Modele AI jako elektroniczne mózgi nie mogą zapomnieć.
Aktualny stan mojej wiedzy. Proszę poinformować mnie, jeśli jestem nieprawidłowy.

Model AI, który pozostaje takim samym, nie usuwa danych, dotyczących utworów online autorów. Nie są usuwane również dane z modeli AI w ogóle. Nawet modele AI, które są ponownie trenowane, często mają ten problem. Wersja 3.5 ChatGPT jest obecnie dostępna w Niemczech. Mało to znaczy, jeśli zawiera ograniczenie dotyczące użycia utworów autora, gdy ta blokada działa tylko na wersji ChatGPT-4, a nie na wersji 3.5.

Samodzielnie nawet jeśli każde większe i tym samym potencjalnie mocyne AI-modeli zostałyby ponownie od zera nauczane, opóźnienie byłoby olbrzymie. Bloomberg-GPT jest modelem AI dla danych finansowych. W celu jego utworzenia wykorzystano by kilka milionów godzin najdroższej mocy obliczeniowej, korzystając z niezwykle wielkiej liczby kart graficznych o wysokiej mocy do obliczeń. Nie można przypuszczać, że Bloomberg-GPT pojawi się każdego miesiąca w nowej wersji. Zamiast tego należy okresy roczne przyjąć.

Aby niechoby niepożądane informacje z modelu AI zniknęły, należałoby go prawdopodobnie "zzielenic" (grounding). To postępowanie jest jednak niepewne i bardziej odpowiednie do usuwania fałszywych informacji, przez umieszczenie w ich miejsce prawidłowych. Możliwość zapomnienia mają według mojej wiedzy modele AI nie. Także człowiek nie może naprawdę dobrze zapomnieć. Czasem wystarczy jeden punkt odniesienia lub słowo pobudzające, aby wywołać ponownie zapomnianą pamięć. To, że ludzie nie przypominamy sobie wszystkiego, może być raczej spowodowane tym, że nasze "sprzęty" w głowie nie są dostosowane do trwałości. Inaczej jest z elektronicznymi mózgami. Gdy tylko będzie wystarczająca ilość prądu lub kopii zapasowych, informacje umieszczone w nich są nieusuwalne.

Kompaktowy Internetowy versus Szukajka

Jedna sztuczna inteligencja nie jest wyszukiwarką, jeśli sięga się po funkcjonalną stronę. Z pewnością można z użyciem modelu językowego wydobyć fakty. Te fakty są jednak na skutek długiej czasu szkolenia i rozproszonego w czasie szkolenia często przestarzałe. Fakty aktualne w ogóle nie można znaleźć w modelach AI.

Dla precyjnej wyszukiwarki, takiej jak klasyczne wyszukiwarki ją doskonało, system AI nie jest odpowiedni z natury rzeczy. Zamiast tego system AI przypomina semantyczną, strukturalną lub rozmytą wyszukiwarkę.

Technicznie mówimy wtedy o Maszyna do poszukiwania wektorów.

Z punktu ochrony danych nie ma znaczenia, jakie system jest zbudowany. Osoby jako właściciele swoich danych mają prawo do usunięcia się z wyników wyszukiwania (wyrok TSUE z 24.09.2019, nr C-507/17). W związku z tym Google musi zapewnić, że dane osobowe zostaną usunięte z wyników wyszukiwania na żądanie właściciela danych. Odpowiedzi AI na pytanie wyszukiwawcze są również danymi osobowymi.

W przykładowej wyszukiwarce Bing można już od pewnego czasu zadać nie tylko zwyczajne słowa kluczowe, ale także skomplikowane pytania. Bing odpowiada na te pytania wykorzystując swoją AI. Samo to pokazuje, że dla osoby poszukującej informacji nie może istnieć różnicy, czy dotyczącego systemu jest klasyczna wyszukiwarka takiej jak DuckDuckGo, czy też wyszukiwarka oparta na AI taką jak Bing lub chatbot takim jak ChatGPT.

Obok tego warto zauważyć, że Bing często podaje błędne odpowiedzi. To nie ma nic wspólnego z halucynacjami, ale raczej z alternatywnymi prawdami, które niestety często uznawane są za prawdę. Według Binga pliki cookies to pliki tekstowe.

Pytanie do Bing z dnia 31.07.2023. Mój post odwrotnie twierdzi, ale jest on uznany za źródło. (obraz został przetłumaczony automatycznie).

Odwołuje się do mojego wpisu jako dowodu odpowiedzi Binga. W tym wpisie udowadniając dokładnie przeciwną tezę. Z pomocą systemu AI przyjaznego danych, który może być prowadzony przez dowolne przedsiębiorstwo bez Microsoft, Google lub ChatGPT, to nie nastąpiłoby. AI Bing jest więc niebezpieczna i nawet nie wskazuje na to. Zamiast tego jako inny słowo kluczowe zaleca się: „Są Cookies niebezpieczne?“.

Informacje usuwalne w wyszukiwarkach AI

Jedna AI nie jest przeglądarką internetową, ale często jest używana jak taka, jak pokazuje Bing. Ten sposób powstał z braku zasobów (sprzętu, czasu obliczeniowego) i polega na tym:

Jedna AI przeszukuje cały zasób dokumentów, nazywany jest on indeksem wyszukiwawczym. Jest to analogiczne do wyszukiwarki internetowej, która jednak szuka dokładnie lub bardziej precyzyjnie niż AI.
Najbardziej odpowiednie dokumenty w sprawie pytania są wybrane.
Inteligencja otrzymuje pytanie tylko w odniesieniu do wybranych dokumentów.
Technologia uczy się odpowiada na podstawie wiedzy z wybranych dokumentów i korzysta przy tym ze swoich umiejętności językowych.

Dokumenty z indeksu wyszukiwania AI mogą być usunięte tak samo, jak w tradycyjnej serii wyszukiwarka. Jednak takie maszyny AI, które tu nazywałbym, są stosunkowo niepewne, jak pokazuje Bing. Bing jest więc na końcu zupełnie nieprzydatny i tym bardziej dla dokumentów z własnego przedsiębiorstwa.

Hallucynacje wywołane przez AI, takie jak te obserwowane w Bing wyszukiwaniu opartym na AI, mogą być uniknięte w systemach AI własnych przedsiębiorstw.
Jeśli jesteście zainteresowani, proszę się do mnie odzywajcie.

Co brakuje Binga, to jest skuteczne Grounding. Bing nie może tego zrobić, ponieważ zasoby na ten cel w Microsoftu są jeszcze za małe. Tak przynajmniej myślę, mając świadomość technicznych szczegółów modeli AI i ich wymagań sprzętowych.

Lepiej jest w przypadku własnych systemów AI firmy, o których będzie mowa wkrótce w osobnym wpisie na Dr. RODO. Te systemy mogą zastosować Grounding i tym samym połączyć dwa korzyści:

Dostępne są informacje na bieżąco.
Odpowiedzi na pytania, które są skierowane do tego wiedzy, są bardzo precyzyjne.

Hallucynacje można uniknąć w lokalnych systemach AI, które nie mają nic wspólnego z Microsoftem, Google'em, Meta lub ChatGPT-em, ale tylko w lokalnych systemach. Czyś kiedyś myślał o takim systemie AI dla swojej firmy? Nie kosztuje fortuny.

Tekst, obrazy i inne media: prawa autorskie?

Jeśli dla tekstów dostępnych online obowiązuje to samo, co dla obrazów dostępnych online. Tutaj może być jeszcze większe dilema, ponieważ obraz generowany przez AI często nie pozwala już na rozpoznanie jego źródeł. W końcu w generatorach takich jak Midjourney lub DALL-E łączy się kilka lub nawet wiele zdjęć. Datapunkt LAION-5B, który jest bardzo często używany do procedur Stable Diffusion, umożliwia szukanie podobieństwa w obrazach. ([1])

Poniższe kroki wykonałem z LAION-datasetem, aby sprawdzić, czy generowane przez AI obrazy były podobne do dostępnych online materiałów źródłowych:

Tworzenie obrazu za pomocą generacji obrazów przez AI.
Dla tego zdjęcia poszukiwano podobnych zdjęć w LAION-dataset, który zawiera niemal sześć miliardów zdjęć.
Podobieństwo wygenerowanego obrazu do zdjęć z bazy danych było tak niskie, że jako człowiek nie mogę nawet przy bardzo starannym sprawdzeniu rozpoznać plagiatu.

Moje testy były jednak niepełne, ale tylko punktowe. W każdym razie już teraz tysiące obrazów AI zostało wygenerowanych za pomocą lokalnego systemu AI.

Generujący obrazy komputera często tworzą obrazy, które są zupełnie inne od źródłowych zdjęć (danych szkoleniowych). W związku z tym prawa autorskie tu nie mają zastosowania.
Do szkolenia natomiast należy przestrzegać bardzo korzystnych dla modeli AI warunków ustawy o prawie autorskim.

Również w przypadku tekstów widzę regularnie, że odtwarzanie przez model AI mojej wybranego formy odbywa się w sposób znacznie różniący się od oryginału. W związku z tym zdaje sobie sprawę, że pytanie o oryginalny tekst nie jest tutaj stosowne. Nie musi to być zawsze tak jednoznaczne jak sądzenia na temat wierszy. Jeśli jednak firma korzysta z modelu AI, może ona przeciwstawić się tym problemom kilka razy.

Pierwszym jest to, że systemy AI mogą być wyposażone w dane treningowe do wyboru. Drugim jest to, że wyniki nie muszą być udostępniane publicznie, np. w sieci firmowej. Prawnik wie lepiej niż yes, jakie zmiany wprowadza to w prawo autorskie. Jest pewne: „Co [jako autor] nie wiem, nie sprawia mi gorąca krwi”. Ryzyko niepublicznego użycia danych jest znacznie niższe niż pokazanie wyników. Trzecim jest to, że systemy AI należące do firmy mogą być wyposażone w mechanizmy modyfikacji dowolnego rodzaju. Najlepszym jest to, co ekonomiczne. Co wcześniej kosztowało fortunę, dziś jest dostępne. Twoja firma nie potrzebuje ChatGPT (i jeśli tak, wiedziałbym z przyjemnością, dlaczegóż). ([1])

Wynik

Informacje, które kiedyś trafiły do modelu AI, nie mogą być łatwo usunięte z tego elektronicznego mózgu. Bardziej utrudnione wydaje się również zapobieganie tym, aby własne prace online znalazły się w modelach AI.

Dlatego treści własne są skazane na bycie pochłonięte przez duże platformy AI. Sprzeciw wobec pochłaniania jest możliwy, ale dotyczy on tylko wybranych rodzajów utworów. Dane osobowe są lepiej chronione niż teksty, których Esenz zostaje zassany przez trzecią AI i tym samym ulega kontroli twórcy oryginalnego tekstu.

Google działa szczególnie perfidnie i wykorzystuje wszystkie przeczytane treści do wszystkich dopuszczalnych celów. Do tego należą zarówno wyszukiwarka, jak i inteligencja artficyalna o nazwie Google Bard oraz wszystko to, co jeszcze Google wymyśli. Analogicznie wygląda to w przypadku Meta.

Teksty, które nie są głównie pisane jako artykuły informacyjne, mogą być trudne do zrozumienia przez modele AI. Bo najważniejsze tam często między wierszami.

Twórcy dostępnych w internecie utworów nie będą w przyszłości mieć możliwości zakazu korzystania z nich przez AI.
Zobacz post.

Niezgłęcona przez autorów zgoda na korzystanie z ich utworów dostępnych online jest w praktyce niemożliwa i nieuregulowana. Tylko dla światowo znanych systemów, takich jak ChatGPT, może być ona częściowo realizowana.

Jednak informacje z modeli AI nie mogą być usunięte w krótkim czasie. Zamiast tego model musiałby zostać ponownie szkolony od zera, co jest bardzo czasochłonne i dlatego ma to miejsce tylko sporadycznie. Aż do tej pory są dostępne przynajmniej własne prace w obcej AI bez wiedzy autora.

Nie wyklucza się, że będą matematyczne podejścia, aby celowo usunąć pojedyncze dane z modelu AI. O tym przecież nie słyszałem i niczego nie znalazłem wiarygodnego. Uważam to za trudne i wierzę raczej, że takiego mechanizmu nie będzie istnieć w praktycznej formie przez najbliższe 12 miesięcy.

Nie rozwiązując technicznie prostej sprawy dotyczącej prawa do użytkowania w analogii do indeksatorów wyszukiwarek, twórcy treści są zdecydowanie gorzej usposobieni niż byliby.

Prawdopodobnie zostaną wydane na poziomie UE przepisy prawne, aby chronić dane autorów przed kradzieżą przez AI-Crawlera. Jest jednak już za późno i tym bardziej, gdy te przepisy zaczną obowiązywać. Idioci są ponownie małymi firmami. Google i inne korporacje nadal będą wykorzystywały zasoby danych z internetu (poza tym, jeśli nie chcą już pojawiać się w wynikach wyszukiwania Google). Kto może uruchomić duży Crawler, może również długo szukać treści, których użycie nie jest zabronione.

Technika zwycięża prawo, bo technika odbywa się w świetlną prędkość, a prawo idzie w tempie ślimaka.

Aktualnie jest prowadzona sprawa sądowa przeciwko LAION. Fotograf chciał usunąć swoje zdjęcia z LAION-Datensatzu po ich opublikowaniu. W normalnych okolicznościach te zdjęcia nie były już przechowywane w LAION (jest prawdopodobnie dowód, że tak jest, ale nie jest to konieczne do budowania modeli AI). Niezależnie od tego LAION-Datensatz jest używany na całym świecie przez wiele modeli generujących obrazy. Kontrola nad poszczególnymi elementami (tutaj: zdjęciami) niewykonalna.

ChatGPT wykorzystał zestaw danych Common Crawl do szkolenia modelu AI. Ten zestaw danych jest kopią części internetu, z której niektóre elementy zostały wybrane w sposób przypadkowy. Gdy istnieje techniczna konwencja dotycząca warunków użytkowania (robots.txt), stanie się to dla wszystkich modeli AI korzystających z aktualnego zestawu danych Common Crawl nieprzyjemne. Aż do momentu, gdy takie warunki będą istnieć, prawdopodobnie jeszcze kilka miesięcy lub lat minie. Z prawnego punktu widzenia istnieją również możliwości wycofania się z uznaniem. Na przykład OpenAI może twierdzić, że ChatGPT-5 został oparty na ChatGPT-4 (Fine-Tuning), a nie został od nowa przeszkolony od podstaw. Baza danych dla ChatGPT-4 wydaje się być w zakresie warunków użytkowania przez twórców uprawniona, ponieważ w wrześniu 2021 roku istniały niemal żadne warunki użytkowania.

Podsumowanie

Podstawowe treści i konsekwencje w postaci punktów:

Technicznie nie jest możliwe wprowadzenie ograniczenia dotyczącego praw autorskich, które uniemożliwiłoby modelom AI pobieranie online dostępnych utworów.
Zastrzeżenie użycia zgodnie z § 44b UPRP ma wpływ tylko na przyszłość. Modele sztucznej inteligencji już trenowane pozostają takie same.
Brak zgody dla twórców utworów dostępnych w internecie, które mogą być bezpłatnie pobierane, dotyczących modeli AI.
Modele AI nie mogą zapomnieć, a jeśli tak, to tylko z ogromnym wysiłkiem i znacznymi opóźnieniami czasowymi.
Modele AI, które nie są ponownie trenowane, nie biorą pod uwagę ograniczeń dotyczących użytkowania, które zostały wprowadzone dopiero po treningu AI.
Przyszły ciężki czas dla twórców. Co człowiek może i powinien zrobić z cudzymi dziełami, to może i powinno to robić AI (a prawdopodobnie faktycznie też).
Nominacja źródeł modelu AI nie zmienia nic, ponieważ warunki użytkowania są dotychczas praktycznie tylko sporadycznie wyrażane. ([1])
Google wykorzystuje oczywiście wszystkie dane Crawlera zarówno dla serwisu wyszukiwawczego, jak i Google Barda lub podobnych. W związku z tym kontrola autorów ze względu na markę Google jest obecnie w praktyce niemożliwa.
Jasne są liczne usprawiedliwienia prawnie możliwe, aby dać robotom sztucznej inteligencji pozory legitymizacji.