Jakie są najważniejsze środki ochrony przed crawlerami AI?

Twórcy treści mogą wykorzystywać bramki płatności, Captchas, ograniczenia dostępu dla zarejestrowanych użytkowników i blokowanie zakresów adresów IP lub User-Agentów, aby chronić swoje treści przed robotami do przeszukiwania na sztuczną inteligencję.

Jak zablokować indeks Common Crawl?

Można zablokować Common Crawl Index, wykluczając CCBot z pliku robots.txt, aby zapobiec pobieraniu treści z witryny.

Jak mogę zapobiec, aby ChatGPT przeszukiwał mój serwis internetowy?

Możesz zablokować ChatGPT poprzez zablokowanie User-Agenta 'ChatGPT-User' i/lub zakresu adresów IP 23.98.142.176/28. Alternatywnie, możesz utworzyć regułę zapory sieciowej, aby zablokować User-Agenta 'ChatGPT'.

Jakie źródła danych wykorzystuje ChatGPT oprócz Internetu?

ChatGPT korzysta z zbiorów danych, takich jak Common Crawl Index i Wikipedia. Dane te są tworzone przez niezależnych podmiotów i służą jako podstawa dla odpowiedzi AI, które są podsumowani.

Jak mogę zapobiec, aby systemy AI przeszukiwały mój serwis internetowy?

Użyj pliku robots.txt i określ User-Agent 'CCBot', aby zablokować dostęp Common Crawl. Alternatywnie, możesz zablokować dostęp z określonych adresów IP.

Co powinienem zrobić, jeśli strona internetowa została już zapisana w archiwum Wayback Machine Internet Archive?

Plikę robots.txt z User-Agentem 'ia_archiver' może zapobiec dalszemu udostępnianiu strony w indeksie Wayback Archive. Wymagana jest prośba DMCA skierowana do Internet Archive w celu całkowitego usunięcia danych.

Ochrona własności intelektualnej i zapobieganie krawlowaniu własnych treści

Rewolucja już odbyła się i przebiega z prędkością kosmicznego statku napędzanego tachjonami. Dla twórców treści, takich jak yes, istnieją kilka skutecznych sposobów na uniknięcie "wysysań" własnego treści przez ChatGPT i inne inteligencje sztuczne.

W krótkich słowach

Podsumowanie:

Tekst dotyczy tematu sztucznej inteligencji (SI), w szczególności ChatGPT od OpenAI, oraz ochrony danych osobowych. ChatGPT jest systemem SI, który przekroczył test Turinga i dostarcza odpowiedzi podobne do ludzkich na pytania. To prowadzi do obaw dotyczących ochrony treści tworzonych przez twórców zawartości, ponieważ systemy SI takie jak ChatGPT mogą wykorzystać te treści.

Omawiane są różne możliwości ochrony własnych treści przed systemami AI.

Odpowiedzi na pytania:

Pytanie: Co to jest ChatGPT i jaką rewolucję wywołało? Odpowiedź: ChatGPT jest systemem sztucznej inteligencji OpenAI, który przeszło test Turinga i spowodował ogromne zmiany w społeczeństwie.

Czy można zabezpieczyć treści przed sztuczną inteligencją, taką jak ChatGPT? Odpowiedź 2: Twórcy treści mogą chronić swoje treści, używając płatnych barierek, ochrony przed botami, dedykowanych dostępów do użytkowników i technicznych blokad przeciw crawlerom.

Pytanie: Co to jest test Turynga? Odpowiedź 3: Test Turinga sprawdza, czy sztuczna inteligencja zachowuje się w taki sposób, że nie można jej już odróżnić od człowieka.

Pytanie: Jakie są przykłady ochronnych środków przeciwko "szukającym" AI? Odpowiedź: Przykłady działań ochronnych to: płatne barykady, Captchy, ograniczenia dostępu dla zarejestrowanych użytkowników oraz blokowanie zakresu adresów IP lub agentów użytkownika.

Pytanie: Co to jest Indeks Common Crawl i jak go zablokować? Odpowiedź: Common Crawl Index jest zestawem danych, który przedstawia część Internetu; można go zablokować, umieszczając CCBot w pliku robots.txt i go blokując.

Najważniejsze słowa kluczowe:

Inteligencja sztuczna, ChatGPT, Test Turinga, Twórca treści, Przeszkolenie płatne, Ochrona przed botami, Użytkownicy dedykowani, Zablokowanie techniczne, Cicha blokadę, Twarda blokada.

Wprowadzenie

Największa rewolucja ostatnich dekad spowoduje ogromne zmiany w społeczeństwie. Mowa jest o inteligencji sztucznej, a w szczególności ChatGPT. ChatGPT to produkt firmy OpenAI. Większości z nas już ten system AI znany jest.

ChatGPT przeszedł test Turinga. Wiem, że jest to pierwsza AI, która mu się udała. W każdym razie tak myślę. Wikipedia wygląda na to, że w tym zakresie jest już stare. Test Turinga sprawdza, czy AI zachowuje się tak, aby nie dać się rozpoznać od człowieka. Dla tego celu w pokoju umieszcza się człowieka-próbnika, który poprzez otwór pyta testowanego obiektu pytania bez widzenia, czy próbownik jest człowiekiem lub nie. Próbownik odpowiada na pytania.

Już od dawna Google dba o to, aby pewne (proste) pytania były bezpośrednio odpowiedziane w maszynie wyszukiwawczej. Dla tego celu Google korzysta z treści pochodzących od innych źródeł od Ciebie i mnie. Zwycięzcą jest Google, użytkownik się cieszy, a twórca treści jest głupcem. Ten, kto wykonywał najwięcej pracy, wychodzi z tego najgorszej strony. Nie otrzymuje nawet podziękowania (np. w postaci odwiedzin na stronie, która nie przynosi wiele, ale jest lepsza niż nic).

ChatGPT ma grę pytań i odpowiedzi na niezwykle wysoki poziom. Odpowiedzi często są lepsze niż te, które daje człowiek, a czasem są co najmniej tak dobre jak te, które dają inteligentni ludzie. Jest również błąd, że ChatGPT w istocie opiera się na modelu losowym. To może być jego składnik. Logiczne wnioskowanie zresztą ma z tym mało wspólnego. W każdym razie nie więcej niż to pryncypium jest zakorzenione w naszym własnym mózgu.

Przykład:

Czytaj pytanie:
Sprawdź następującą tezę na plausybilność: Sven jest lepszym rzemieślnikiem niż Mareike. Mareike jest lepszym rzemieślnikiem niż Sven.
ChatGPT:
Oświadczenie to nie jest prawdopodobne, ponieważ zawiera sprzeczność. Nie jest możliwe, aby Sven był lepszy od Mareiki i jednocześnie Mareike była lepsza od Svena. Oświadczenie to logicznie niespójne i dlatego niemożliwe.
Ocena:
Blisko idealna odpowiedź (którą również yes bym dała; moja przyjaciółka jednak była bardziej inteligentna).
Czytaj pytanie:
Nie może być tak, że są dwie osoby o imieniu Mareike
ChatGPT:
Tak, jest teoretycznie możliwe, że są dwie osoby o imieniu Mareike, z których jedna ma lepsze umiejętności w rzemiośle niż Sven, podczas gdy druga jest gorsza od Svena. W takim przypadku zdanie byłoby przekonujące i nie sprzeczne.
W takim przypadku byłoby sensowne sformułować tezę bardziej precyzyjnie, aby uniknąć pomyłek. Na przykład można by powiedzieć: "Mareike A jest lepszym rzemieślnikiem niż Sven, podczas gdy Mareike B jest gorsza od Svena."."
Ocena:
Według mojej (spontanicznej) opinii to jest idealna odpowiedź, do której nic nie trzeba dodać.

W innym szerszym dialogu z wersją ChatGPT, która jest gorsza od obecnej, opisałem się wcześniej. W nim również wymienione są programy takie jak DEEPL. Z pomocą programu DALL-E lub Midjourney można nadal tworzyć nowatorskie i dowolne obrazy w nieznanym dotąd jakości. O tej obrazującej inteligencji sztucznej pisałem również wcześniej. To samo zdjęcie na górze tego wpisu zostało takie właśnie utworzone.

Ochronić własne treści

Już kilka miesięcy temu ktoś z Niemiec opisał, że podjął kroki, aby treści na swojej stronie internetowej chronić przed tym, by zostały przez AI wyciągnięte.

Widzę głównie następujące możliwości, aby chronić własne treści przed AI takimi jak ChatGPT. Co mam do zyskania, jeśli nic nie wynika z tego, że inni wykorzystują moje umiejętności?

Czy wkrótce Ziemia będzie rządzona przez sztuczną inteligencję? To zdjęcie pochodzi z AI.

Możliwości ochrony przed crawlami są w szczególności:

Ograniczenie opłat: Wkrótce również dla bardziej zaawansowanych treści mniejszych stron internetowych; Duże strony informacyjne już od dłuższego czasu korzystają z tego modelu.
Ochrona przed botami: Na przykład Captchas. O tym nie będę tu (jeszcze) więcej mówić, ponieważ jest to technicznie bardzo wymagające i my Google reCAPTCHA (w wersji niewidzialnej) uważamy za bardzo nieprzyjazne dane, a co więcej takie ochrony nie są skuteczne.
Użytkownicy dedykowani versus Goście: Tylko zarejestrowani użytkownicy mogą przeglądać wszystkie treści.
Techniczna blokada przeciwko Crawlerom.
- Miękka blokada: Proszę, proszę, drogi ChatGPT, nie zablokuj mojej strony internetowej.
- Zakaz wejścia: Strażnik drzwi, który wyłącza serwer ChatGPT i OpenAI.

Nie będę polecał obecnie płatnej bariery opłat. Treści, które były darmowe, pozostaną dla czytelnika ludzkiego na razie takie same. Ponadto w procesach zakupowych pojawiają się problemy prawne, które muszą być rozwiązane (regulamin, rozwiązanie pop-upa, prawo do odstąpienia od umowy itp.).

Logowanie dla użytkowników, którzy mogą czytać wszystkie treści, jest dość dobrym ochroną przed botami. Przynajmniej bot musiałby uzyskać darmowe (lub jakieś inne) konto klienta, aby móc czytać treści. Jest to możliwe, ale sprawiłoby, że olbrzymie crawlery zostaną wykluczone. Która firma crawlowych może lub chce już utrzymywać konta na wszystkich możliwych stronach? Całość można potem połączyć z ochroną przed botami.

Człowieczego mózgu jest również "tylko" automat, choć znacznie bardziej wydajny (w porównaniu).
ChatGPT robi wie ludzie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie wie.

Techniczna blokadę można łatwo i skutecznie zbudować. Opisuję poniżej niezbędne działania.

Zachodnia blokadę

ChatGPT Crawler może być poinstruowany przez instrukcję w pliku robots.txt, aby zignorować stronę internetową. Poniższa instrukcja sprawia to:

User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

Czy Crawler AI będzie się trzymał swoich zasad czy nie – to kwestia zaufania. Kto jeszcze chce zaufać AI, skoro już teraz nie można zaufać własnym oczom? Sam fakt, że OpenAI używa kilku agentów użytkownika, które nie są przejrzysto opisane na jednej stronie, wskazuje na to, że problem ten będzie coraz bardziej istotny w przyszłości:

Zablokowanie plików dodatkowych do ChatGPT ([1])
Ostrzeżenie GPTBot nr 6: Zablokowanie web crawlera OpenAI ([1])

Zakaz polowacki

Inną możliwością jest zablokowanie dostępu do serwerów poprzez ich adresy IP. Dla tego potrzebne jest określenie zakresu adresów, na których dostęp do strony internetowej powinien być technicznie uniemożliwiony.

Obszar adresowy jest zgodnie z informacją z OpenAI następujący: `23.98.142.176/28

Techniczna blokadę należy zrealizować na serwerze wewnętrznym. Z pomocą pluginów takich jak WordFence dla stron WordPress, realizacja jest prosta. W WordFence znajduje się wbudowana Filtraż ognia. Dla firewalla teraz trzeba dodać regułę, aby wykluczyć obszar IP.

To idzie w menu "Firewall" w sekcji "Utwórz regułę blokującą".

Zablokuj dostęp do ChatGPT za pomocą zakresu adresów IP z użyciem WordFence. (obraz został przetłumaczony automatycznie).

Jako typ blokad wybiera się "Custom Pattern". W polu "IP Address Range" można podać zakres adresów serwerów ChatGPT.

Analog można również utworzyć serwerową regułę do zablokowania User-Agenta ChatGPT. Dla tego celu w polu "Browser User Agent" podaje się wartość "*ChatGPT*" i pozostają puste wszystkie inne pola, z wyjątkiem "Block Reason". Gwiazdki w nazwie ChatGPT oznaczają jokerzeichen, ponieważ identyfikator Crawler może mieć prefiksy i sufiksy.

Konfiguracja dla zablokowania obszaru adresu i agenta użytkownika wygląda następująco:

OpenAI i ChatGPT są zablokowane poprzez zakres adresów IP oraz identyfikatora krawalera. (obraz został przetłumaczony automatycznie).

Zakazuje się idealnie również ChatGPT Pluginów, które przeglądają strony internetowe, aby uzyskać i połączyć informacje na potrzeby zapytań.

Po jakimś czasie można ponownie przeglądnąć tę statystykę. W kolumnie „Block Count” są wtedy zliczone dostępy, które zostały zablokowane. Małe strony internetowe prawdopodobnie będą odwiedzane przez ChatGPT i OpenAI tylko sporadycznie lub nigdy. Znane strony internetowe lub te z wieloma linkami do nich będą raczej skorzystać, że ich treści znikną w czarnej skrzynce o nazwie ChatGPT i prawdopodobnie nie będą mogły zostać odzyskane.

Dalsze wiadomości

Common Crawl

ChatGPT wykorzystuje już istniejące dane z innych krawlerów takich jak Common Crawl lub baz danych wiedzy takich jak Wikipedia. Coś, co jest już na Wikipedii opublikowane, prawdopodobnie nie zostanie odzyskane, zwłaszcza że nie jest to dokładna replika własnych treści, ale raczej ich skrócenie przez innych. Jak pisał czytelnik w komentarzu, ChatGPT wykorzystuje również indeks Common Crawl (Language Models are Few-Shot Learners z OpenAI, tabela na str. 9).

Zestaw danych Common Crawl jest wydrukem części Internetu, który został sporządzony już od dłuższego czasu i całkowicie niezależnie od ChatGPT lub OpenAI. Ktoś, kto chce wiedzieć, czy jego strona internetowa znajduje się w indeksie Common Crawl, może pobrać wszystkie pliki tam i przeszukać je. Może być to jeszcze łatwiejsze za pomocą skryptu Pythona. W moim przypadku najłatwiej było użyć narzędzia gau (pobierz wszystkie adresy URL), które oprócz Common Crawl bierze również pod uwagę dostawców Wayback Machine (archive.org), AlienVault's Open Threat Exchange i URLScan.

Często zamiast oryginalnego zestawu danych Common Crawl używa się C4-Danych. C4 oznacza Colossal and Cleaned version of Common Crawl, czyli czysty i ogromny zestaw danych Common Crawl.

Aby zablokować Crawlera Common Crawl Index, wystarczy podanie następujących informacji w pliku robots.txt (Uwaga: Nazwy agentów użytkowników wydają się regularnie lekko zmieniać!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Kto chce zwiększyć bezpieczeństwo i nie zostać "sczypnięty", może bloadować dostęp do swojego serwera przez adresy IP od 38.107.191.66 do 38.107.191.119. W tym momencie klawiatura działa na AWS i posiada więc zmienne adresy sieciowe.

Archiwum Internetu (Maszyna do cofania czasu)

Adres Archive.org pokazuje historyczne dane z skanów stron internetowych. Kto tu nie chce lądować, powinien poinformować o tym WayBack-Robota poprzez wpisanie następującego wpisu do pliku robots.txt:

User-agent: ia_archiver
Zakazuj: /

Jeśli strona internetowa została już wcześniej pobrana przez Wayback Machine, znajduje się w jej indeksie. Wskazana Robots-Anweisung powinna zapewnić, że nie jest dostępna publicznie z tego indeksu. Aby usunąć dane całkowicie, należy wysłać Petycja DMCA na adres e-mail Internet Archive.

Wynik

Nie ufaj żadnej AI, którą nie dezaktywowałeś samemu. Kto tworzy i udostępnia własne treści, powinien je chronić. Dlaczego zawsze tak wiele treści dostarczamy bezpłatnie korporacjom jak Google, Meta, Microsoft czy OpenAI?

Takie maszyny jak Google stracą na znaczeniu, gdy inne, takie jak Microsoft, będą dostarczać odpowiedzi. W ten sposób problem przesuwa się z jednego aktualnie istotnego złoczyńcy do innego aktualnie i przyszłego. Microsoft kradnie nam już stale dane. Byłoby dla Microsofta łatwe, aby nie wydobywać danych telemetrycznych z komputera Windows, ale o to poprosić użytkownika. W Microsoftu pojęcie "zgody" nabiera zupełnie nowego znaczenia.

Daher polecam wyrzucić wszystkie bota, których nie potrzebujecie jako administratorzy strony internetowej. Do nich należy na pewno ChatGPT oraz Microsoft z Bingiem, do którego ChatGPT jest już wpleciony/będzie wplecione/będą wplecione.

Dla bliskiej przyszłości można by się zastanowić nad tym: Zamiast całkowicie wykluczyć AI-Crawlera takiego jak ChatGPT, nur pewne treści są odtwarzane. Te treści zawierają instrukcje, w jaki sposób ChatGPT można zablokować. Tak oto OpenAI Crawler sam przyczynia się do tego, że inni lepiej wiedzą, jak zablokować Crawlera.

Ciekawe będą, jeśli poprosimy OpenAI lub Microsoft o usunięcie naszych własnych treści z AI. Prawo do zapomnienia powinniśmy sprawdzić wkrótce. Wtedy operator AI musiałby na przykład w najgorszym przypadku ciągle aktualizować swój model AI.

Lepsze są modele lokalne AI, które działają w intranecie lub na jednym komputerze. Dzięki temu można rozwiązać problemy specyficzne dla danego obszaru, bez przekazywania danych do osób nieuprawnionych.