Як заблокувати Common Crawl Index?

Можна заблокувати Common Crawl Index, заблокувавши CCBot у файлі robots.txt, щоб запобігти зборам контенту з вебсайту.

Як я можу запобігти тому, щоб ChatGPT сканував мій вебсайт?

Ви можете заблокувати ChatGPT шляхом блокування User-Agent 'ChatGPT-User' і/або IP-адресного діапазону 23.98.142.176/28. Альтернативно, ви можете створити правило брандмауера для блокування User-Agent 'ChatGPT'.

Які джерела даних ChatGPT використовує крім інтернету?

ChatGPT спирається на набори даних, такі як Common Crawl Index та Wikipedia. Ці дані створюються сторонніми особами та використовуються як основа для відповідей ШІ, які є узагальненнями.

Як я можу запобігти обходу мого веб-сайту штучними інтелектами?

Використовуйте файл robots.txt та вкажіть User-Agent 'CCBot', щоб заблокувати доступ Common Crawl. Альтернативно, ви можете заблокувати серверні запити від конкретних IP-адрес.

Що я можу зробити, якщо веб-сайт вже збережений у Wayback Archivalному архіві Інтернету?

Файл robots.txt з User-Agent 'ia_archiver' може запобігти подальшому публічному доступу сторінки до індексу Wayback Machine. Для повного видалення даних необхідний запит DMCA до Internet Archive.

ЧатГПТ: захист інтелектуальної власності та запобігання скрейнингові власного вмісту

Q: Які основні заходи захисту від AI-краулерів?

Створювачі контенту можуть використовувати платіжні шлюзи, Captchas, обмеження доступу для зареєстрованих користувачів та блокування IP-адресних діапазонів або User-Agentів, щоб захистити свій контент від AI-крадіжок.

Революція вже відбулася та просувається зі швидкістю космічного корабля з андроїдним двигуном. Для творців вмісту, таких як я, існує декілька ефективних способів запобігти захопленню власного вмісту ChatGPT та іншими штучними інтелектами.

У загальному

Об'єднаний підсумок:

Текст стосується теми штучної інтелекту (ШІ), зокрема чат-бота ChatGPT від OpenAI, та захисту даних особистої інформації. ChatGPT є системою ШІ, яка виконує Тест Тюринга і надає відповіді подібні до людських, коли запитують щось. Це викликає занепокоєння щодо захисту вмісту, створеного користувачами, оскільки системи ШІ, такі як ChatGPT, можуть використовувати цей вміст.

Дискутуються різні можливості захисту власного вмісту від систем штучного інтелекту.

Відповіді на запитання:

Питання: Що таке ChatGPT та яку революцію воно викликало? Отповідь:* ChatGPT – це штучна інтелектова система OpenAI, яка проходить тест Тьюринга та викликає масштабні зміни в суспільстві.

Як можна захистити вміст від штучної інтелекту, як ChatGPT? Відповідь 2: Контент-автори можуть захистити свої вміст, використовуючи платні блокування, захисту від ботів, спеціалізовані доступи користувачів та технічні блокування проти крейдерів.

Питання: Що таке тест Тюринга? Отвечення 3: Тест Тюринга перевіряє, чи така керована інтелектна система діє так, що її вже не можна відрізнити від людини.

Питання: Які є деякі приклади заходів захисту від КІ-роботів? Відповідь: Прикладами заходів захисту є оплачувальні шкафчики, капчі, обмеження доступу для зареєстрованих користувачів та блокування діапазонів IP-адрес або агентів користувача.

Питання: Що таке Індекс Common Crawl і як можна його блокувати? Відповідь:* Common Crawl Index — це база даних, яка відображає частини Інтернету; можна її блокувати, виключивши CCBot з robots.txt-файлу.

Основні ключові слова:

Кібернетична інтелект, ChatGPT, Тест Тьюринга, Контент-автор, Платіжна блокада, Антиботовий захист, Власник облікового запису, Технічний блокування, М'яке блокування, Харте блокування.

Вступ

Найбільша революція останніх десятиліть призведе до масштабних змін у суспільстві. Мова йде про штучну інтелект, зокрема ChatGPT. ChatGPT — продукт компанії OpenAI. Для багатьох вже відомий цей КІ-система.

ChatGPT здав Тест Тюринга. На мою думку, це перша КІ, якій це вдалося. Wikipedia здається застарілою у цьому питанні. Тест Тюринга перевіряє, чи КІ діє так, що її не можна відрізнити від людини. Для цього в кімнаті розміщується людина-перевірник, який через вікно ставить запитання до об'єкта випробування, без можливості бачити, чи людина-перевірник є людиною або ні. Перевірник відповідає на питання.

Вже давно Google забезпечує те, щоб певні (прості) запитання були відповідані прямо в пошуковій машині. Для цього Google використовує додатковий вміст від вас і мене. Переможцем є Google, користувач задоволений, а автор вмісту ставає жертвою. Той, хто зробив найбільшу роботу, потрапляє найгірше. Він навіть не отримує подяки (якщо б навіть у вигляді відвідування вебсайту, яке хоча й нічого не дає, але краще ніж нічого).

ЧатГПТ підвищило Гра запитань-відповідей до рівня, якого раніше ніщо не досягало. Відповіді частково краще, ніж ті, які людина міг би надати, а іноді майже такі ж як ті, що надаються розумним людям. Зокрема, помилковим є те, що ЧатГПТ у своїй основі ґрунтується на випадкових моделях. Logisches Folgern взагалі мало стосується випадкової статистики. Принаймні не більше ніж цей принцип закріплений в нашому власному мозку.

Наприклад:

Питання:
Перевірте наступну висловлювання на підставі його правдоподібності: Свен краще майстер, ніж Маріке. Маріке краще майстер, ніж Свен.
ChatGPT:
Вираз не вірний, оскільки він містить протиріччя. Неможливо, щоб Свен був краще за Марейку і одночасно Марейка була краще за Свена. Цей вираз логічно суперечливий і тому неможливий.
Оцінка:
Близько до ідеальної відповіді (я таку теж дав би; але моя знайома була розумнішою).
Питання:
Коли це не може бути так, що є дві людини на ім'я Марейке?
ChatGPT:
Так, теоретично можливий випадок існування двох осіб із ім'ям Марейке, з яких одна краще володіє майстерністю, ніж Свен, тоді як інша гірше володіє майстерністю, ніж Свен. У цьому випадку висловлення було б правдоподібним і не суперечливим.
В цьому випадку було б розумно ще більше деталізувати цю інформацію, щоб уникнути помилкових інтерпретацій. Наприклад можна сказати: "Маріке А краще майстер, ніж Свен, тоді як Маріке Б гірша від Свена."."
Оцінка:
За мою думку, це ідеальна відповідь, до якої нічого не потрібно додати.

Є більш детальним діалозі з поганою версією ChatGPT, ніж поточна, я показав у попередньому статті. У ньому також згадані програми, такі як DEEPL. З допомогою програм, таких як DALL-E або Midjourney, продовжують створюватися нові та різноманітні зображення найвищої якості. Про цю білд-генуючу штучну інтелект я також повідомляв раніше. Також саме такий спосіб було використано для створення зображення вище у цій статті.

Власні вмістити захищати

Вже кілька місяців тому якийсь німець описував, що він прийняв заходи для захисту своїх вмістів на сайті від того, щоб вони були інтелектуальним зусиллям абсорбованими.

Я бачу головним чином такі можливості захисту власного вмісту від КІ, як ChatGPT. Що мені принесе, якщо нічого не зроблю щодо використання інших моїх досягнень?

Буде скоро Земля захоплена штучною інтелектом? Це фото зроблено за допомогою КІ.

Варіанти захисту від крейлерів зокрема:

Безоплатна межа: Вже скоро також для більш високоякісних матеріалів невеликих вебсайтів; Великі інформаційні сайти вже користуються цим моделлю.
Антибот-розсіч: Як приклад можна назвати Captchas. На цю тему я ще не пішов далі, оскільки вона дуже технічно складна і ми Google reCAPTCHA (в невидимій версії) вважаємо дуже антиданією засобом і не хочемо використовувати його. Крім того такий захист не зовсім ефективний.
Зареєстровані користувачі проти гостей: тільки зареєстровані користувачі можуть прочитати всі вміст.
Технічна блокада проти крейлерів.
- М'яка блокування: Будь ласка, будь ласка, любий ChatGPT, не знищуйте мої сторінку веб.
- Хартова блокада: охоронець, який виводить із ладу ChatGPT та сервери OpenAI.

Я не буду давати рекомендацій щодо встановлення платної межі сплати зараз. Зміст, який раніше був вільним від вартості, повинен залишитися вільним для людини-читача на цей час. Крім того, при здійсненні операцій з покупкою виникають правові проблеми, які потрібно вирішити (Умови використання, рішення щодо кнопок, право відкликання тощо).

Логін для користувачів, які можуть прочитати всі вміст, є досить добрим захистом від ботів. Зокрема, боту потрібно отримати безкоштовний (або будь-який інший) обліковий запис клієнта, щоб він міг читати вміст. Це можливо, але зробить так, що великі крейзери залишаться зовні. Яка компанія-робот може або хоче вже мати облікові записи на всіх можливих вебсайтах? Усі ці речі можна поєднати з захистом від ботів.

Чоловіче мозок теж є лише «автомат», хоча дуже ефективний (відносно).
ЧатГПТ робить багато речей якісно подібно до людини. Багато хто вважає, що це інше, тому вони не визнають, що людина не має душі, а лише симуляцію того, чого деякі називають душею.

Є можливість швидко і ефективно встановити технічну блокаду. Нижче я описую необхідні заходи.

М'яка блокада

ЧатГПТ Кrawler може бути вказаний на ігнорування вебсторінки за допомогою команди у файлі robots.txt. Наступна команда забезпечує це:

User-agent: ChatGPT-User
Disallow: /
agent: GPTBot
Disallow: /

Об те, чи КІ-краулер дотримується своїх принципів або ні, залежить від віри. Хто ще захоче вірити в КІ, коли навіть не можна довіряти своїм власним очам? Сама лише річ, що OpenAI використовує декілька агентів користувача, які не прозорі описані на одній сторінці, робить проблему дуже очевидною для майбутнього:

Виключення плагінів з ChatGPT ([1])
Відключення веб-робота OpenAI GPTBot ([1])

Заказ на хартію

Інша можливість – заблокувати доступ до сервера за його мережною адресою. Для цього необхідно оголосити діапазон адрес, для яких потрібно відмовити у доступі на вебсайт.

Адресний простір згідно інформації від OpenAI та такий: `23.98.142.176/28

Технічна блокада повинна бути виконана на власному веб-сервері з боку сервера. За допомогою плагінів, таких як WordFence для сторінок WordPress, виконання цього дуже просто. У WordFence є інтегрований Фаєрвол. Для вогнестійкості тепер необхідно додати правило, щоб заблокувати IP-облась.

Це відбувається у пункті меню «Фаєрвол» в розділі «Створити блокуючу правило».

ЧатГПТ доступ через IP-адресний діапазон заблокувати за допомогою WordFence. (зображення було перекладено автоматично).

Як тип блокування виберіть «Custom Pattern». У полі «IP Address Range» можна вказати діапазон адрес серверів ChatGPT.

Аналогом може бути створена серверна налаштування для блокування агента користувача ChatGPT. Для цього у полі «Браузер User Agent» вказується значення «ChatGPT», а всі інші поля залишаються порожніми, окрім «Block Reason». Зірочки в імені ChatGPT означають joker-знаки, оскільки ідентифікатор крейлера може мати префікси та суфікси.

Конфігурація для блокування за адресним простором та агента користувача виглядає тоді так:

Відкритий AI та ChatGPT заблоковані за IP-адресним діапазоном та ідентифікатором crawler. (зображення було перекладено автоматично).

Виправна блокування також забезпечує те, що плагіни ChatGPT будуть заблоковані, які сканують вебсторінки для отримання інформації та її поєднання для запитів.

Найкращий час пізніше можна знову переглянути цю статистику. У колонці «Block Count» тоді будуть перелічені звернення, які були блоковані. Малі вебсторінки, ймовірно, відвідуватимуться дуже рідко або ніколи не відвідуватимуться ChatGPT та OpenAI. Відомі вебсторінки чи такі із багатьма посиланнями набагато більше мають шанс того, що їх вміст зникне у чорній коробці під назвою ChatGPT і, ймовірно, ніколи знову не буде відновлено.

Додаткові боти

Common Crawl

ЧатГПТ вже використовує наявні дані інших крейлерів, наприклад Common Crawl, або баз даних знань, як Вікіпедія. Що вже записано на Вікіпедії, не буде повернуте, адже це не точна копія власного змісту, а скоріше підсумок роботи інших осіб. Як повідомив один з читачів у коментарі, ЧатГПТ також використовує індекс Common Crawl (Language Models are Few-Shot Learners від OpenAI, таблиця на сторінці 9).

Дані Common Crawl є відніманням частини Інтернету, яке вже давно створюється незалежно від ChatGPT чи OpenAI. Хто хоче знати, чи його вебсайт знаходиться у індексі Common Crawl, може завантажити всі файли та здійснити пошук. З допомогою скрипту Python це можливо зробити ще легше. А ще легше, хоча й під час моїх випробувань, є інструмент gau (get all URLs), який окрім даних Common Crawl також розглядає провайдерів Wayback Machine (archive.org), AlienVault's Open Threat Exchance та URLScan.

Часто замість оригінального набору даних Common Crawl використовують База даних C4. C4 означає Colossal and Cleaned version of Common Crawl, тобто очищений набір даних Common Crawl.

Аби заперти крейлера індексу Common Crawl, достатньо вказати наступну інформацію у файлі robots.txt (Увага: імена агентів користувача здаються змінюватися трохи регулярно!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Хтось, хто хоче підвищити безпеку свого серверу проти кравлінґу, міг заблокувати доступ за допомогою IP-адрес 38.107.191.66 – 38.107.191.119. Тепер же цей кравлер працює на AWS і має змінні мережеві адреси.

Архів Інтернету (Машинний шлях назад)

Адреса Archive.org показує історичні дані з сайтів-сканів. Хто тут не хоче потрапити, повинен повідомити цьому Wayback-Roboter шляхом внесення наступного запису в файл robots.txt:

User-agent: ia_archiver
Заборонити: /

Якщо вебсторінка вже була завантажена у Wayback Machine, вона знаходиться в їхньому індексі. Вказана команда Robots повинна забезпечити те, щоб вона більше не була публічно доступна з індексу. Для того, щоб повністю видалити дані, необхідно надати DMCA запит на поштовій адресі Інтернет-архіву.

Результат

Нікому не довіряй штучній інтелекту, який ти сам не вимкнув. Кожному, хто створює та розповсюджує власний вміст, слід захистити його. Чому ми завжди так багато вільно передаємо свої дані великим компаніям, як Google, Meta, Microsoft чи OpenAI?

Такі пошукові машини як ті, що належать Google будуть втрачати свій вплив, коли інші такі як Microsoft запустять відповідальні машини. Таким чином проблема буде переміщуватися від одного поточного зла до іншого поточного та майбутнього зла. Microsoft вже зараз постійно викрачає дані від нас. Для Microsoft було б досить легко не виводити дані Telemetrie зі свого Windows-комп'ютера, а просити дозвіл для цього. При Microsoft термін "запобіжний захід" набуває зовсім іншої форми.

Я рекомендую видалити всі боти, яких ви не можете використовувати у своїй якості власника вебсайту. До цього належить, на мою думку, безумовно ChatGPT та Microsoft з Bing, в яке вже інтегровано/будуть інтегровані ChatGPT.

Для найближчої майбутньої перспективи можна було б подумати про таке: замість того щоб цілком заборонити КІ-робота, подібного на ChatGPT, тільки певні вміст повертаються. Ці вміст містять вказівки щодо того, як блокувати ChatGPT. Таким чином, сам OpenAI Crawler допомагає тим, хто ще краще розуміє, як блокувати цього робота.

Інтригуюче буде, коли ми запропонують OpenAI чи Microsoft видаляти свої власні матеріали із КІ. Право на забуття варто перевірити найближчим часом. Тоді розробнику КІ доведеться у разі найгіршого сценарію постійно навчати своє КІ-роздрібне моделі.

Локальні моделі AI, які працюють в Інтернеті або на одному комп'ютері, краще. З їх допомогою можна розв'язувати проблеми, специфічні для певної області, без того, щоб дані-крали отримували ще більше даних.