Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

ЧатГПТ: захист інтелектуальної власності та запобігання скрейнингові власного вмісту

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Стаття у форматі PDF (тільки для передплатників новин)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Революція вже відбулася та просувається зі швидкістю космічного корабля з андроїдним двигуном. Для творців вмісту, таких як я, існує декілька ефективних способів запобігти захопленню власного вмісту ChatGPT та іншими штучними інтелектами.

У загальному

Об'єднаний підсумок:

Текст стосується теми штучної інтелекту (ШІ), зокрема чат-бота ChatGPT від OpenAI, та захисту даних особистої інформації. ChatGPT є системою ШІ, яка виконує Тест Тюринга і надає відповіді подібні до людських, коли запитують щось. Це викликає занепокоєння щодо захисту вмісту, створеного користувачами, оскільки системи ШІ, такі як ChatGPT, можуть використовувати цей вміст.

Дискутуються різні можливості захисту власного вмісту від систем штучного інтелекту.

Відповіді на запитання:

Питання: Що таке ChatGPT та яку революцію воно викликало? Отповідь:* ChatGPT – це штучна інтелектова система OpenAI, яка проходить тест Тьюринга та викликає масштабні зміни в суспільстві.

Як можна захистити вміст від штучної інтелекту, як ChatGPT? Відповідь 2: Контент-автори можуть захистити свої вміст, використовуючи платні блокування, захисту від ботів, спеціалізовані доступи користувачів та технічні блокування проти крейдерів.

Питання: Що таке тест Тюринга? Отвечення 3: Тест Тюринга перевіряє, чи така керована інтелектна система діє так, що її вже не можна відрізнити від людини.

Питання: Які є деякі приклади заходів захисту від КІ-роботів? Відповідь: Прикладами заходів захисту є оплачувальні шкафчики, капчі, обмеження доступу для зареєстрованих користувачів та блокування діапазонів IP-адрес або агентів користувача.

Питання: Що таке Індекс Common Crawl і як можна його блокувати? Відповідь:* Common Crawl Index — це база даних, яка відображає частини Інтернету; можна її блокувати, виключивши CCBot з robots.txt-файлу.

Основні ключові слова:

Кібернетична інтелект, ChatGPT, Тест Тьюринга, Контент-автор, Платіжна блокада, Антиботовий захист, Власник облікового запису, Технічний блокування, М'яке блокування, Харте блокування.

Вступ

Найбільша революція останніх десятиліть призведе до масштабних змін у суспільстві. Мова йде про штучну інтелект, зокрема ChatGPT. ChatGPT — продукт компанії OpenAI. Для багатьох вже відомий цей КІ-система.

ChatGPT здав Тест Тюринга. На мою думку, це перша КІ, якій це вдалося. Wikipedia здається застарілою у цьому питанні. Тест Тюринга перевіряє, чи КІ діє так, що її не можна відрізнити від людини. Для цього в кімнаті розміщується людина-перевірник, який через вікно ставить запитання до об'єкта випробування, без можливості бачити, чи людина-перевірник є людиною або ні. Перевірник відповідає на питання.

Вже давно Google забезпечує те, щоб певні (прості) запитання були відповідані прямо в пошуковій машині. Для цього Google використовує додатковий вміст від вас і мене. Переможцем є Google, користувач задоволений, а автор вмісту ставає жертвою. Той, хто зробив найбільшу роботу, потрапляє найгірше. Він навіть не отримує подяки (якщо б навіть у вигляді відвідування вебсайту, яке хоча й нічого не дає, але краще ніж нічого).

ЧатГПТ підвищило Гра запитань-відповідей до рівня, якого раніше ніщо не досягало. Відповіді частково краще, ніж ті, які людина міг би надати, а іноді майже такі ж як ті, що надаються розумним людям. Зокрема, помилковим є те, що ЧатГПТ у своїй основі ґрунтується на випадкових моделях. Logisches Folgern взагалі мало стосується випадкової статистики. Принаймні не більше ніж цей принцип закріплений в нашому власному мозку.

Наприклад:

Питання:
Перевірте наступну висловлювання на підставі його правдоподібності: Свен краще майстер, ніж Маріке. Маріке краще майстер, ніж Свен.
ChatGPT:
Вираз не вірний, оскільки він містить протиріччя. Неможливо, щоб Свен був краще за Марейку і одночасно Марейка була краще за Свена. Цей вираз логічно суперечливий і тому неможливий.
Оцінка:
Близько до ідеальної відповіді (я таку теж дав би; але моя знайома була розумнішою).
Питання:
Коли це не може бути так, що є дві людини на ім'я Марейке?
ChatGPT:
Так, теоретично можливий випадок існування двох осіб із ім'ям Марейке, з яких одна краще володіє майстерністю, ніж Свен, тоді як інша гірше володіє майстерністю, ніж Свен. У цьому випадку висловлення було б правдоподібним і не суперечливим.
В цьому випадку було б розумно ще більше деталізувати цю інформацію, щоб уникнути помилкових інтерпретацій. Наприклад можна сказати: "Маріке А краще майстер, ніж Свен, тоді як Маріке Б гірша від Свена."."
Оцінка:
За мою думку, це ідеальна відповідь, до якої нічого не потрібно додати.

Є більш детальним діалозі з поганою версією ChatGPT, ніж поточна, я показав у попередньому статті. У ньому також згадані програми, такі як DEEPL. З допомогою програм, таких як DALL-E або Midjourney, продовжують створюватися нові та різноманітні зображення найвищої якості. Про цю білд-генуючу штучну інтелект я також повідомляв раніше. Також саме такий спосіб було використано для створення зображення вище у цій статті.

Власні вмістити захищати

Вже кілька місяців тому якийсь німець описував, що він прийняв заходи для захисту своїх вмістів на сайті від того, щоб вони були інтелектуальним зусиллям абсорбованими.

Я бачу головним чином такі можливості захисту власного вмісту від КІ, як ChatGPT. Що мені принесе, якщо нічого не зроблю щодо використання інших моїх досягнень?

Буде скоро Земля захоплена штучною інтелектом? Це фото зроблено за допомогою КІ.

Варіанти захисту від крейлерів зокрема:

  • Безоплатна межа: Вже скоро також для більш високоякісних матеріалів невеликих вебсайтів; Великі інформаційні сайти вже користуються цим моделлю.
  • Антибот-розсіч: Як приклад можна назвати Captchas. На цю тему я ще не пішов далі, оскільки вона дуже технічно складна і ми Google reCAPTCHA (в невидимій версії) вважаємо дуже антиданією засобом і не хочемо використовувати його. Крім того такий захист не зовсім ефективний.
  • Зареєстровані користувачі проти гостей: тільки зареєстровані користувачі можуть прочитати всі вміст.
  • Технічна блокада проти крейлерів.
    • М'яка блокування: Будь ласка, будь ласка, любий ChatGPT, не знищуйте мої сторінку веб.
    • Хартова блокада: охоронець, який виводить із ладу ChatGPT та сервери OpenAI.

Я не буду давати рекомендацій щодо встановлення платної межі сплати зараз. Зміст, який раніше був вільним від вартості, повинен залишитися вільним для людини-читача на цей час. Крім того, при здійсненні операцій з покупкою виникають правові проблеми, які потрібно вирішити (Умови використання, рішення щодо кнопок, право відкликання тощо).

Логін для користувачів, які можуть прочитати всі вміст, є досить добрим захистом від ботів. Зокрема, боту потрібно отримати безкоштовний (або будь-який інший) обліковий запис клієнта, щоб він міг читати вміст. Це можливо, але зробить так, що великі крейзери залишаться зовні. Яка компанія-робот може або хоче вже мати облікові записи на всіх можливих вебсайтах? Усі ці речі можна поєднати з захистом від ботів.

Чоловіче мозок теж є лише «автомат», хоча дуже ефективний (відносно).

ЧатГПТ робить багато речей якісно подібно до людини. Багато хто вважає, що це інше, тому вони не визнають, що людина не має душі, а лише симуляцію того, чого деякі називають душею.

Є можливість швидко і ефективно встановити технічну блокаду. Нижче я описую необхідні заходи.

М'яка блокада

ЧатГПТ Кrawler може бути вказаний на ігнорування вебсторінки за допомогою команди у файлі robots.txt. Наступна команда забезпечує це:

User-agent: ChatGPT-User
Disallow: /
agent: GPTBot
Disallow: /

Об те, чи КІ-краулер дотримується своїх принципів або ні, залежить від віри. Хто ще захоче вірити в КІ, коли навіть не можна довіряти своїм власним очам? Сама лише річ, що OpenAI використовує декілька агентів користувача, які не прозорі описані на одній сторінці, робить проблему дуже очевидною для майбутнього:

  • Виключення плагінів з ChatGPT ([1])
  • Відключення веб-робота OpenAI GPTBot ([1])

Заказ на хартію

Інша можливість – заблокувати доступ до сервера за його мережною адресою. Для цього необхідно оголосити діапазон адрес, для яких потрібно відмовити у доступі на вебсайт.

Адресний простір згідно інформації від OpenAI та такий: `23.98.142.176/28

Технічна блокада повинна бути виконана на власному веб-сервері з боку сервера. За допомогою плагінів, таких як WordFence для сторінок WordPress, виконання цього дуже просто. У WordFence є інтегрований Фаєрвол. Для вогнестійкості тепер необхідно додати правило, щоб заблокувати IP-облась.

Це відбувається у пункті меню «Фаєрвол» в розділі «Створити блокуючу правило».

ЧатГПТ доступ через IP-адресний діапазон заблокувати за допомогою WordFence. (зображення було перекладено автоматично).

Як тип блокування виберіть «Custom Pattern». У полі «IP Address Range» можна вказати діапазон адрес серверів ChatGPT.

Аналогом може бути створена серверна налаштування для блокування агента користувача ChatGPT. Для цього у полі «Браузер User Agent» вказується значення «ChatGPT», а всі інші поля залишаються порожніми, окрім «Block Reason». Зірочки в імені ChatGPT означають joker-знаки, оскільки ідентифікатор крейлера може мати префікси та суфікси.

Конфігурація для блокування за адресним простором та агента користувача виглядає тоді так:

Відкритий AI та ChatGPT заблоковані за IP-адресним діапазоном та ідентифікатором crawler. (зображення було перекладено автоматично).

Виправна блокування також забезпечує те, що плагіни ChatGPT будуть заблоковані, які сканують вебсторінки для отримання інформації та її поєднання для запитів.

Найкращий час пізніше можна знову переглянути цю статистику. У колонці «Block Count» тоді будуть перелічені звернення, які були блоковані. Малі вебсторінки, ймовірно, відвідуватимуться дуже рідко або ніколи не відвідуватимуться ChatGPT та OpenAI. Відомі вебсторінки чи такі із багатьма посиланнями набагато більше мають шанс того, що їх вміст зникне у чорній коробці під назвою ChatGPT і, ймовірно, ніколи знову не буде відновлено.

Додаткові боти

Common Crawl

ЧатГПТ вже використовує наявні дані інших крейлерів, наприклад Common Crawl, або баз даних знань, як Вікіпедія. Що вже записано на Вікіпедії, не буде повернуте, адже це не точна копія власного змісту, а скоріше підсумок роботи інших осіб. Як повідомив один з читачів у коментарі, ЧатГПТ також використовує індекс Common Crawl (Language Models are Few-Shot Learners від OpenAI, таблиця на сторінці 9).

Дані Common Crawl є відніманням частини Інтернету, яке вже давно створюється незалежно від ChatGPT чи OpenAI. Хто хоче знати, чи його вебсайт знаходиться у індексі Common Crawl, може завантажити всі файли та здійснити пошук. З допомогою скрипту Python це можливо зробити ще легше. А ще легше, хоча й під час моїх випробувань, є інструмент gau (get all URLs), який окрім даних Common Crawl також розглядає провайдерів Wayback Machine (archive.org), AlienVault's Open Threat Exchance та URLScan.

Часто замість оригінального набору даних Common Crawl використовують База даних C4. C4 означає Colossal and Cleaned version of Common Crawl, тобто очищений набір даних Common Crawl.

Аби заперти крейлера індексу Common Crawl, достатньо вказати наступну інформацію у файлі robots.txt (Увага: імена агентів користувача здаються змінюватися трохи регулярно!)

User-agent: CCBot
Disallow: /
User-agent: CCBot/1.0
Disallow: /
User-agent: CCBot/2.0
Disallow: /
User-agent: CCBot/3.0
Disallow: /

Хтось, хто хоче підвищити безпеку свого серверу проти кравлінґу, міг заблокувати доступ за допомогою IP-адрес 38.107.191.66 – 38.107.191.119. Тепер же цей кравлер працює на AWS і має змінні мережеві адреси.

Архів Інтернету (Машинний шлях назад)

Адреса Archive.org показує історичні дані з сайтів-сканів. Хто тут не хоче потрапити, повинен повідомити цьому Wayback-Roboter шляхом внесення наступного запису в файл robots.txt:

User-agent: ia_archiver
Заборонити: /

Якщо вебсторінка вже була завантажена у Wayback Machine, вона знаходиться в їхньому індексі. Вказана команда Robots повинна забезпечити те, щоб вона більше не була публічно доступна з індексу. Для того, щоб повністю видалити дані, необхідно надати DMCA запит на поштовій адресі Інтернет-архіву.

Результат

Нікому не довіряй штучній інтелекту, який ти сам не вимкнув. Кожному, хто створює та розповсюджує власний вміст, слід захистити його. Чому ми завжди так багато вільно передаємо свої дані великим компаніям, як Google, Meta, Microsoft чи OpenAI?

Такі пошукові машини як ті, що належать Google будуть втрачати свій вплив, коли інші такі як Microsoft запустять відповідальні машини. Таким чином проблема буде переміщуватися від одного поточного зла до іншого поточного та майбутнього зла. Microsoft вже зараз постійно викрачає дані від нас. Для Microsoft було б досить легко не виводити дані Telemetrie зі свого Windows-комп'ютера, а просити дозвіл для цього. При Microsoft термін "запобіжний захід" набуває зовсім іншої форми.

Я рекомендую видалити всі боти, яких ви не можете використовувати у своїй якості власника вебсайту. До цього належить, на мою думку, безумовно ChatGPT та Microsoft з Bing, в яке вже інтегровано/будуть інтегровані ChatGPT.

Для найближчої майбутньої перспективи можна було б подумати про таке: замість того щоб цілком заборонити КІ-робота, подібного на ChatGPT, тільки певні вміст повертаються. Ці вміст містять вказівки щодо того, як блокувати ChatGPT. Таким чином, сам OpenAI Crawler допомагає тим, хто ще краще розуміє, як блокувати цього робота.

Інтригуюче буде, коли ми запропонують OpenAI чи Microsoft видаляти свої власні матеріали із КІ. Право на забуття варто перевірити найближчим часом. Тоді розробнику КІ доведеться у разі найгіршого сценарію постійно навчати своє КІ-роздрібне моделі.

Локальні моделі AI, які працюють в Інтернеті або на одному комп'ютері, краще. З їх допомогою можна розв'язувати проблеми, специфічні для певної області, без того, щоб дані-крали отримували ще більше даних.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Штучний інтелект: Для чого це КІ-революція є найбільшим у історії людства революцією