Як захистити свої твори від використання штучним інтелектом?

Автори можуть висловити застереження щодо використання, яке запобігає використанню їхніх творів штучним інтелектом для аналізу тексту та даних. Це застереження має бути представлене у машинозчитуваному форматі.

Яку роль відіграє файл robots.txt для захисту онлайн-робіт від ШІ?

Файл robots.txt дозволяє правовласникам заборонити певним AI-системам, таким як пошукові системи чи чат-боти, сканувати їхні веб-сайти. Це запобігає вилученню цих системами контенту та використанню його в навчальних цілях.

Як ефективно запобігти використанню платформ штучного інтелекту, які збирають контент з Інтернету?

Майже неможливо ефективно виключити окремі AI-платформи, оскільки їх кількість не обмежується та постійно змінюється. Найкращою стратегією є прийняття використання Google-послуг або повне виключення Google Bot.

Яку роль відіграють файли robots.txt в контексті використання ШІ пошуковими системами?

Файли robots.txt можуть використовуватися для того, щоб виключати пошукових роботів, таких як Google Bot, з певних розділів веб-сайту. Однак, це малоефективно проти зростаючого збору даних компаніями, такими як Google.

Чому моделі штучного інтелекту, такі як Bard, можуть використовувати інформацію з онлайн-текстів, не порушуючи авторські права?

Моделі штучного інтелекту, такі як Bard, стверджують, що вони просто відтворюють інформацію, яка є загальнодоступною та представлена на веб-сайтах. Вони запевняють, що не відтворюють ваші матеріали дослівно, а лише надають семантичне інтерпретацію.

Як пояснити складність контролю авторських прав у моделях штучного інтелекту?

Через довгі періоди навчання та великі інтервали між даними, моделі штучного інтелекту часто містять застарілу інформацію. Крім того, вони не можуть так швидко реагувати на зміни або запити на видалення, як звичайні пошукові системи, що ускладнює контроль за авторськими правами.

Чому моделі штучного інтелекту не можуть забувати і як це впливає на авторські права?

Моделі штучного інтелекту не мають здатності забувати, оскільки вони зберігають та обробляють інформацію з онлайн-текстів. Це означає, що навіть після тривалого часу та без блокування вміст з моделі не можуть бути видалені, що ускладнює контроль за авторськими правами.

Які основні проблеми з пошуковими системами на основі штучного інтелекту, такими як Bing?

Штучні інтелектуальні пошукові системи, такі як Bing, можуть надавати неправдиві відповіді, засновані на галюцинаціях. Ще однією проблемою є відсутність «заземлення», тобто зв’язку з актуальною, надійною інформацією, що може призвести до неточних результатів.

Sichere KI, digitaler Datenschutz & Website-Compliance

Автори онлайн-доступних робіт згідно законодавства мають можливість проголосувати за умовне використання. Такі роботи повинні бути захищені від потрапляння в електронні мозки. Чи діє цей підхід? У статті називаються можливості та обмеження цього підходу.

Вступ

Кібернетична інтелект розвинув величезні здібності, які часто перевершують середню людську розумність. Тест Тьюринга вважається виконаним. Цей тест перевірює, чи комп'ютер такий же розумний як людина. Так, він вже є таким. Як показує ChatGPT, КІ навіть здатна значно перевершувати людину в окремих галузях, принаймні якщо вважати середнє значення для всіх людей. КІ не знає втоми і може користуватися завжди покращеною технікою, зовсім інакше ніж людина з її порівняно дуже обмеженим мозком. Єдиною перевагою людини є відчуття та здатність досліджувати та сприймати навколишнє середовище. Це дуже скоро зміниться на користь штучних систем. ([1])

AI-Роботи можуть онлайн захоплювати тексти та зображення від авторів майже без обмежень, і це робиться згідно законодавства. Закон надає авторам право на право використання, яке фактично немає. Причини такі чисто організаційні та технічні.

Ці дивовижні здібності КІ одночасно страхітливі. Автори хвилюються, що їх творіння тепер будуть захоплені та розфарбовані електронним мозком. Google вже зробив це раніше, тільки ніхто не дуже хвилювався тоді:Користувач вводить запитання в Suchmaschine. Замість того, щоб ваша сторінка, яка відповідає запитанню, з'явилася і ви захопили користувача та використовували його для своїх законних цілей, відповідь надається як екстракт вмісту в Suchmaschine*. Користувач навіть не потрапляє на вашу сторінку, а раніше від'єднується. Ви є постачальником змісту і нібудь. Google радіє. Для користувача це нікому не важливо.

Звідси виникла вимога щодо обов'язкової згоди від багатьох авторів, які зробили свої роботи доступними онлайн. Автор повинен дозволити КІ використовувати його твори. Інші вимагають лише того, що вже передбачено законодавством – можливість відмовитися від використання. Ця можливість передбачена в § 44b Abs. 3 UrhG і формулюється там наступним чином ([1]) :

Використання згідно з абзалом 2 ст. 1 [Множення копій законно доступних робіт для текстової та даних мінінгу] можливе лише тоді, коли власник прав відмовився від цього. Власницький заповіт щодо онлайнових робіт діє тільки тоді, коли він здійснений у машинно-читабельній формі.
Пункт 3 статті 44б Закону про авторське право

В подальшому копії творів авторського права для цілей штучної інтелекту мають бути видалені, коли вони більше не потрібні. Це, проте, не є проблемою, оскільки якщо ви добре прочитаєте текст, то пізніше зможете зрозуміти його зміст навіть без оригіналу. Так само робить штучна інтелект.

Технічний обмежувальний правовідносини

Онлайн-доступні твори, такі як вебсторінки, пов'язані PDF-файли, зображення, аудіофайли, файли тексту або безкоштовні е-букси, є прикладами. Автори таких робіт згідно зі статтею 44б Уголовного кодексу Німеччини не мають права згоди (запитування згоди), а лише можливість відмови від використання. Якщо автор не вказує сигнал до відмови від використання свого тексту, згідно з цією ж законодавчою нормою його текст можна прочитати та використовувати для обробки даних за допомогою технологій Text and Data Mining. Під цим процесом я розумію також застосування штучної інтелегенції. З цієї точки зору я не єдиний.

В будь-якому разі термін Вибірково насправді не є синонімом для умовності використання. Бо оп-аут діє навіть у минуле, а умовність використання діє лише в майбутнє. Якщо умовність використання надається тільки після процесу читання вмісту за допомогою крейдера, то вона стосується цього процесу читання ніяк не діє.

Як виглядає технічна можливість відставки?

Для пошукових систем та інших крейлерів ця можливість вже існує. Вона дана через файл robots.txt. Цей файл дотримується загальновизнаної, розповсюдженої та відомої конвенції. Кожна пошукова система, яка хоче бути правовірною, поважає цю файл.

Файл robots.txt вебсайту доступний під головним шляхом, наприклад, під dr-dsgvo.de/robots.txt. Для мене він виглядає так:

# robots.txt
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: slurp
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: CCBot
Disallow: /

Примітка до рандомізованої роботи: Крім того, я використовую динамічний захист бота, який також блокує деякі пошуковці.

У моїй файлі robots.txt декларовано, що Інтернет-архив не повинен читати мою вебсторінку. Це позначено користувачем-агентом ia_archiver та директивою Disallow (заборонити). Так само я забиваю ChatGPT від сканування, як можна помітити за розмовним користувачем-агентом ChatGPT-User.

Який користувач-агент для якої пошукової системи, який crawler та яка платформа штучного інтелекту використовувати потрібно, невідомо. Великі платформи публікують імена своїх crawlers (користувачів-агентів). Crawler — це програма, яка збирає онлайн-доступні вміст.

Всі принципи роботи файлу robots.txt ґрунтуються на конвенціях. Технічний процес дуже простий. Якщо немає цієї конвенції, то немає і цього процесу.

Наведений виключний правовий статус інтернет-доступних робіт щодо КІ для авторів фактично неможливий. Причина полягає в відсутності технічної конвенції. Вже навчені моделі КІ ніяк не розглядають умов, які були встановлені лише після навчання.
Відноситься до § 44b, абз. 3 Уголовного кодексу Німеччини.

Випадково, ви хочете заблокувати нову платформу з інтелектуальної системи, яка була оголошена вчора в пресі. Як зробити це? Спочатку ви нічого не знали про цю платформу і тому не могли навіть розпочати пошук User-Agent цієї платформи, яку ви тепер бажаєте заблокувати. Хіба що Роланд чи Сюзі можуть створити власну модель інтелектуальної системи та використовувати власний крейсер для збору вмісту Інтернету.

Їм потрібно було б знайти технічні імена для всіх можливих платформ AI, тобто і для моїєї платформи, та для усіх платформ Роландів від 1 до 5000, та для усіх платформ Сусі від 1 до 13847, та для експериментів Елона, та для своїх сусідів, та для всіх підприємств з AI зі США тощо.

Платформи AI можна зараз лише окремо та тільки після отримання відомості про існування платформ віддалити доступ до онлайнових вмістів.
Технічний факт.

Виправдана здається ця спроба провалитися. По-перше, ви не знаєте всі платформи з штучним інтелектом. По-друге, ви навіть не хочете знати всі платформи з штучним інтелектом, бо тоді вам доведеться проводити дослідження цілодобово або підключатися до можливого платного чи негативно впливу на вашу доступність послуги, яка проводить дослідження цілодобово. Поки ви не хочете блокувати всі пошуковці, а тільки погані платформи з штучним інтелектом та, можливо, погані пошуковці.

Коли-небудь у вас була б файл із забороненими записами, який міг виглядати так. На кінці рядків я вказав фіктивні дати як коментарі, за які ви вказували відповідний запис про заборону певному КІ-роботу.

#Your robots.txt file
User-agent: ChatGPT-User #added on 17.04.2023
Disallow: /
User-agent: Susi-1-KI-Crawler #added on 21.05.2023
Disallow: /
User-agent: Roland-17-KI-Bot #added on 23.06.2023
Disallow: /
User-agent: Nachbar-KI-0815 #added on 15.07.2023
Disallow: /

Також можливо визначити загальні записи за допомогою спеціальних символів. Але цим може бути запобігнута робота деяких роботів-парсерів, а деякі можуть ще не розпочати роботу.

Але проблема ще більша, і саме в мінімум двоїх аспектах.

Маркетова потуга Google та Meta

Я спробував 31 липня 2023 року визначити технічні імена КІ-краулерів Google та Meta, щоб їх можна було заблокувати. Google Bard такий же як Meta LLAMA 2, відомий мовний модуль. Я не хочу, щоб мої матеріали з'являлися там без того, щоб я отримував за це гроші. Хіба ж ні, що Google та Meta збагачують свої кишені моїми та вашими даними. Отже, від мене немає жодних вільно доступних матеріалів для їхніх КІ-краулерів.

Гугл пояснює в своїх інструкціях щодо захисту даних, які починають діяти з 01 липня 2023 року, наступне:

Наприклад, ми збираємо дані, які доступні онлайн або в інших публічних джерелах, щоб тренувати моделі КІ від Google та продовжувати розробляти продукти та функції, такі як Google Перекладач, Bard та Cloud AI. Якщо інформація про вашу компанію з'являється на сайті, ми можемо її індексувати та показувати в послугах Google.
Звідка: С. 32 попередніх вказівок щодо захисту даних Google.

Є майже безперечна ймовірність того, що Google використовує свій пошуковий робот для навчання своєї штучної інтеллекту також для обробки прочитаних вмістів. Google не має бажання надати вам та мені можливість заперечувати проти цього. Як доказ цього я наводжу запитання із форуму підтримки Google від 29 березня 2023 року:

Джерело: @@Х1@@ (зображення було перекладено автоматично).

Є відповідь на цю важливу питання навіть через чотири місяці після її постановки немає. Крім того, Google заблокував запитання, тому що ніякої відповіді більше нема можливості отримати. А навіть якщо хто-небудь виявить, як вийти з Google AI-Bot, ця інформація не буде публіковатися у підтримці форумі Google.

При Meta (Facebook, Instagram, WhatsApp) здається так само. Я не зміг знайти технічного імені Meta-Crawlers, який використовується для навчання КІ.

Ви залишаєтеся лише однією можливістю (у випадку з Google): або ви блокуєте весь Google Bot і більше не потрапляєте в результати пошуку Google, або дозволяєте Google використовувати всі наявні онлайн матеріали та твори для будь-яких цілей, які собі заповідає Google.

Для випадку, якщо людина хоче заблокувати Google на своїй вебсторінці, тут вказані інструкції для файлу robots.txt:

User-agent: Googlebot
Disallow: /

Якщо вказується глибший шлях як значення для параметра Disallow, заборона стосуватиметься лише вказаного підмножини вашої вебсторінки. Тому є дуже мало можливостей, щоб протистояти бажанню Google збирають дані. Крім того, я вважаю гідним, якщо ви додатково через свій сайт передаєте свої дані користувачів свого сайту Google і тим самим робите його ще більш потужним. Ви працюєте над тим, щоб зробити Google ще більш потужним, а це без винагороди та майже без правової підстави. У будь-якому разі ви робите собі роботу, встановлюючи плагіни, такі як Google Fonts, Google Maps або Google Analytics замість місцевих шрифтів, однієї картки даних, що відповідає вимогам захисту даних, або Matomo.

Гугл вважає за свій, що таке:

Правила захисту даних: „Ми, Google, ніякої особистої інформації не обробляємо.“ Google явно не хоче розуміти, що таке обробка даних і вибачає Google Tag Manager від роботи.
Кібернетична інтелект:
- Падіння а: Відреєстровані дані з'являються в відповіді AI від Google Bard. Google скаже: "Але ви публічно зробили ці відомості доступними. Ми показуємо лише те, що ваша сторінка демонструє кожному, хто відкриває її."."
- Виправлення b: Власні статті будуть відображені у власних словах та не як цитата Google Bard на відповідь користувачів на запит до Google-AIзнову. Google, ймовірно, скаже: «Наші витрати не є порушення авторських прав, оскільки ми ніяк не відтворюємо вміст у цитатній формі, але тільки в зовсім інших словах»

Автори онлайн-текстів часто навіть не помічають випадок 2 б). Випадок 2 а) містить багато гостроти, про яку я розповім далі.

Прийдемо до наступного питання щодо авторів, які бажають не використовувати свої твори в КІ.

Вимагання діє в майбутнє

ChatGPT-4 ґрунтується на базі даних за вересень 2021 року. Я ж сам у 2022 році нічого про ChatGPT не знав і лише випадково чув про нього. Отже, більшості було б неможливо визначити заборону щодо власних робіт, яка забороняє ChatGPT використовувати власні роботи.

Всі вміст, який було прочитано до встановлення блокування від ChatGPT або інших моделей КІ, вже збережено в електронному мозку. Ніякі пізніші блокування автора нічого не змінять. Його твори вже були витягнуті. Лише нові твори чи оновлення, надії є, що вони більше не будуть використовуватися третім КІ.

Дані з моделей штучного інтелекту майже не видаляються

Використовувані умови авторського права не можуть бути розглянуті так просто та швидко, як у звичайних пошукових системах. Можливо навіть і ні за що не можна буде це зробити з огляду на минуле.

Самі у великих пошукових системах може тривати кілька днів чи тижнів, поки не буде виконаний запит про видалення інформації. Я можу говорити про це на власному досвіді. Німецьке місто мало інформаційну аварію та попросило мене допомогти в вивченні даних про людей із великих пошукових систем. Останні непотрібні результати зникли лише після кількох тижнів.

Так, як мені відомо, ніхто не зобов'язаний знову навчати КІ-модель після початкового навчання. Без повторного навчання всі дані, які були завантажені в модель, зберігаються у ній. Проте дані не зберігаються у первісній формі, а їхня структура або сутність зберігається. У більшості випадків важко сказати щось конкретніше. Я посилаюся на людський мозок та його шумову зберігальну форму інформації.

КІ-моделі як електронні мозки не можуть забути.
Мій поточний рівень знань. Будь ласка, повідомте мене, якщо я помиляюся.

Є модель КІ, яка залишається такою, як вона є, видаляє дані ні, які стосуються онлайн-читання робіт авторів. А також ніякі дані з моделей КІ не видаляються. навіть ті моделі КІ, які знову навчені, часто мають цю проблему. При чаті ГПТ зараз діє версія 3.5 в Німеччині. З огляду на використання правомірності роботи автора мало те, що ця заборона застосовується тільки до чаті ГПТ-4, а не до версії 3.5.

Саме якщо кожне більший і тим самим потенційно потужний модель КІ знову і знову навчався з нуля, затримка була б величезна. Bloomberg-GPT – це модель КІ для фінансових даних. Для цього було б витрачено кілька мільйонів годин найшвидшої обчислювальної потужності, використовуючи безліч високопродуктивних відеокарт для розрахунків. Не можна припускати, що Bloomberg-GPT виходила би щомісяця в новій версії. Натомість варто очікувати рокових періоди.

Аби нецікаві відомості з моделювання КІ зникли, треба було б його "землепокупувати" (grounding). Цей процес проте є непевним і більше підходить для видалення помилкових даних шляхом заміни їх вірними. Можливість забуття мають моделі КІ за моїми відомостями немає. А людина теж не дуже добре може забути. Часто досить однієї згадки чи стимульного слова, щоб знову викликати вже забуту пам'ять. Що ми люди не пам'ятимо всього, можливо тому що наше обладнання в голові не розраховане на тривалість дії. З іншого боку, електронні мозки виглядають зовсім інакше. Коли є досить струму або резервних копій, дані, які збережені в мозку, не можуть бути знищені.

КІ проти пошукової системи

Є штучна інтелект, яка не є пошуковою машиною, якщо розглянути її функціональну сторону. Безумовно з мовним моделлю можна витягувати факти. Ці факти часто застарілі через довгу тривалість навчання та великі інтервали між навчанням. Актуальні факти в КІ-моделях майже ніколи не знаходяться.

Для точної пошукової операції, як класичні пошукові системи її дуже добре виконують, спеціально розроблене КІ- система не підходить. Натомість КІ-система подібна до семантичної, структурної або неточної пошукової операції.

Технічною мовою називається такий тип системи КІ як Векторна пошукова машина.

Datenschutzсвіт є зовсім інша історія, яким чином організовано система. Люди як власники своїх даних мають право на видалення з результатів пошуку (ЄГПСУ рішення від 24.09.2019 року, Az.: C-507/17). Тому Google повинен забезпечити, щоб особисті дані були видалені зі сторінок результатів пошуку за бажанням власника даних. Відповіді AI на запитання також є особистими даними.

У пошуковій системі Bing, наприклад, можна поставити поряд із звичайними запитами вже деякий час комплексні питання. Bing відповідає на ці питання за допомогою своєї штучної інтелегенції. Саме тут стає очевидним, що для бажання людини вивчити якусь інформацію не має значення, чи це відбувається через класичну пошукову систему, як DuckDuckGo, чи КІ-орієнтовану пошукову систему, як Bing, чи навіть чатбот, як ChatGPT.

Наприклад, що Bing часто надає неправильні відповіді. Це не має нічого спільного з галюцинаціями, а швидше з альтернативними правдою, яка дуже часто вважається справжньою. За словами Bing, печеньки це текстові файли.

Питання до Bing від 31.07.2023 року. Мій внесок стверджує протилежне, але вказується як джерело інформації. (зображення було перекладено автоматично).

Переховується як доказ відповіді Bing також на мій внесок. Я доводжу в цьому внеску саме протилежне. З допомогою датенної КІ- системи, яка може бути здійснена будь-якою компанією без Microsoft, Google або ChatGPT, це не відбулося б. КІ Bing є небезпечною і навіть не вказує на це. Натомість пропонуються інші пошукові запитання: „Суть вони небезпечні?“.

Видалені дані в пошукових системах КІ

КІ не є пошуковою машиною, але частково використовується як така, як показує Bing. Проведення цього дій виникло з необхідності ресурсів (хардварка, обчислювальної потужності) та виглядає наступним чином:

КІ досліджує весь документальний фонд, який називається індексом пошуку. Це аналогічно до пошукової системи, яка однак більш точно або навіть точніше шукає ніж КІ.
Найкращі документи, які відповідають запитанню, будуть вибрані.
КІ отримує питання лише щодо виділених документів.
КІ відповідає знанням із виділених документів та використовує свої мовні здібності.

Також можна видалити документи з індексу пошуку КІ, як і в звичайній пошуковій системі. Проте такі системи, як я називаю їх тут, досить ненадійні, як показує Bing. Таким чином, у підсумку Bing не дуже придатна та ще менше для документів власного підприємства.

Ілюзії КІ, якими можна спостерігати в пошуках Bing, керованих КІ, можуть уникнутися у власних системах КІ підприємства.
Якщо ви зацікавлені, зверніться до мене, будь ласка.

В Бінгу відсутнє ефективне підключення до землі. Бінгу це не вдається, оскільки ресурсів для цього у Microsoft ще недостатньо. Це хоча б моя припущення з огляду на технічні особливості моделей штучного інтелекту та їх вимог до обладнання.

Надійніше виглядає ситуація з власними системами КІ підприємства, про які буде окремий матеріал на сайті Dr. GDPR. Ці системи можуть застосовувати Grounding і поєднувати дві переваги:

Актуальна інформація доступна.
Відповіді на питання, які ставляться до цього знання, досить точні.

Халузинації можна уникнути у місцевих системах КІ, які не мають нічого спільного з Microsoft, Google, Meta чи ChatGPT, але лише в місцевих системах. Чи вже подумували ви про таке КІ-систему для своєї компанії? На це ні за що не потрібно витрачати гроші.

Текст, зображення та інші засоби масової інформації: авторське право?

Для текстів, які можна завантажити онлайн, саме так само стосується і для завантажуваних онлайн зображень. Тут може бути ще більша проблема, адже зображенню, створеному за допомогою КІ, дуже часто не видно, з якої джерела воно виникло. Хіба що декілька або навіть багато зображень поєднуються в генераторах зображень типу Midjourney чи DALL-E. Дані набір LAION-5B , який дуже часто використовується у процесі створення стабільної дифузії зображень, дозволяє здійснювати пошуки подібності для зображень. ([1])

Нижче наведені кроки, які я виконав із набором даних LAION, щоб перевірити, чи подібні були згенеровані за допомогою КІ зображення до наявних в інтернеті джерел:

Створення зображення за допомогою генератора зображень на основі штучного інтелекту.
Для цього зображення були знайдені подібні зображення в базі даних LAION, яка містить майже 6 мільярдів зображень.
Похованість згенерованого зображення до зображень із набору даних була кожного разу настільки низькою, що я як людина не можу навіть дуже строго визнати порушення авторських прав.

Мої випробування були не повними, а лише точковими. Проте вже створив тисячі зображень КІ за допомогою місцевого системи КІ.

КИ-Білдгенератори дуже часто створюють зображення, які повністю відрізняються від джерельних зображень (тренувальних даних). Таким чином, авторське право тут вже не діє.
Для тренувань треба дотримувати дуже вигідних умов для моделей КІ згідно з Уголовним кодексом Німеччини.

Також при текстах я бачу регулярно, що відтворення за допомогою моделю AI моєї вибору відбувається у формі, яка досить різниться від оригіналу. Отже мені здається, що питання щодо оригінального твору тут не дуже підходить. Це не завжди має бути таким очевидним, як судження щодо віршів підтверджують. Якщо ж підприємство використовує AI-модель, воно може протидіяти цій проблемі декілька разів.

Перше, автаркні системи КІ можуть бути обладнані вільно виборчими навчальними даними. Друге, результати не публічні можуть відбутися, наприклад, у внутрішньому мережі компанії. Юрист краще мене знає, наскільки цим чином порушується авторське право. Визначено одне: «Що я [як власник прав] не знаю, не робить мене гарячим». Ризик використання даних без публікації значно нижчий, ніж при демонстрації результатів. Третє, підприємства можуть обладнатися власними системами КІ з механізмами зміни змісту будь-якої форми. Найкраще – економічність. Що раніше коштувало величезну суму грошей, сьогодні доступне. Ваш бізнес не потребує ChatGPT (і якщо так, я б дуже хотів знати, чому саме). ([1])

Результат

Інформація, яка вже потрапила до моделювання КІ, не легко видалити з цього електронного мозку. А ще складніше видається запобігти тому, щоб власні онлайн твори потрапили в моделі КІ.

Так що власні вміст є обраний до того, щоб бути захоплені великими платформами КІ. Суперечка проти захоплення можливий у вигляді видалення в собі, але стосується цього не всі види робіт. Особисті дані захищені краще ніж тексти, чиї Ессенц від ассимільовані третій КІ і таким чином контроль над творцем оригінального тексту звільнений.

Гугл працює особливо підступно та використовує всі прочитані вміст для всіх передбачених цілей. Для цього належить як пошуковий сервіс, так і КІ на ім'я Google Bard, а також все інше, чого Гугл собі уявляє. Аналогічно здається бути у випадку з Meta.

Текст, який не написаний головним чином як стаття про знання, може уникнути моделей штучного інтелекту. Для цього важливе часто знаходиться між рядками.

Автори онлайн-доступних робіт у майбутньому не зможуть заборонити КІ використовувати свої роботи.
Перегляньте повідомлення.

Надання ліцензії на використання творів авторського права щодо їх онлайн-доступу фактично не регулюється і таким чином майже неможливо здійснити в практиці. Лише для світовідомих систем, таких як ChatGPT, цей попереджувальний захід можна частково здійснити.

Натомість інформація з моделей КІ не може бути швидко видалена. Натомість потрібно знову навчати модель від нуля, що дуже тривалий процес і тому відбувається рідко. Поки ж свої твори зберігаються в чужій КІ без згоди автора.

Немає виключення того, що будуть математичні підходи, щоб цілковито видалити окремі дані з моделювання штучного інтелекту. Про це я ще нічого не чув і нічого стійкого не міг знайти. Я вважаю це складовим завданням та вірю більше в те, що такий механізм протягом наступних 12 місяців не буде існувати у практичній формі.

Доки не вирішена технічно проста задача щодо використання прав на використання аналогічно до пошуку в інтернеті, усі творці змісту щонайменше гірше за те, чого вони бажають.

Вероятно будуть на рівні ЄС правові регулювання, щоб захистити дані авторів від захоплення ними КІ-роботів-підгонщиків. Але вже зараз пізно для цього, а ще пізніше тоді, коли ці законодавчі акти почнуть діяти. Глупці знову це будуть невеликі підприємства. Google та інші концерни продовжують використовувати багатство даних Інтернету (окрім того, ви не бажаєте більше бути в списку Google). Хто володіє великими підгонщиками вміє також довго шукати зміст, використання якого не заборонено.

Техніка перемагає право, бо техніка відбувається зі швидкістю світла, а право – зі швидкістю черепахи.

Актуально є позов проти LAION. Фотограф бажає видалити свої знімки після того, як вони потрапили до бази даних LAION. Зазвичай ці знімки вже не зберігаються у LAION (можливо, що це так, але це не обов'язково для створення моделей AI). Безвідносно до цього світовий доступ до бази даних LAION здійснюється багатьма моделями генерації зображень. Контроль окремих складових частин (у цьому випадку: знімків) видається неможливим.

ChatGPT використовував набір даних Common Crawl для навчання КІ. Цей набір даних є копією частини інтернету, яка була частково випадковим чином вибрана. Усі КІ-моделі, які будуть використовувати сучасний набір даних Common Crawl, відчуватимуть незручність, оскільки вже існує технічна конвенція щодо використання умов (robots.txt). Доки це так не буде, пройде ще багато місяців або навіть років. Юридично також існують можливості для виправдань. Наприклад, OpenAI може стверджувати, що майбутній ChatGPT-5 був створений на основі попередньої версії (Fine-Tuning), а не від початку навчався з нуля. Базовий набір даних для ChatGPT-4 здається легітимізований щодо умов використання правами авторів, оскільки у вересні 2021 року майже не було жодних умов використання.

Об'єднана підсумкова інформація

Ессенція внесення та наслідки у головних пунктах:

Технічною стороною використання умовного права авторського права, яке забороняє КІ-моделям використовувати їхні онлайн-доступні твори, не можна відмовитися (чи наразі ні).
Наведений умовий резерв згідно зі ст. 44б Уголовного кодексу діє лише на майбутнє. Вже навчені моделі штучної інтеллекту залишаються такими, якими вони є зараз.
Є жодна згода щодо авторів онлайн вільно доступних робіт відносно моделей КІ.
КІ-моделі не можуть забути, і якщо вони це роблять, то тільки з величезними зусиллями та значними затримками у часі.
Моделі КІ, які не піддаються повторному навчанню, не беруть до уваги умови використання, які були встановлені лише після навчання КІ.
На творців чекає важкий час. Що людина може та повинна зробити з чужими працями, таке саме зможе зробити КІ (і, вірогідно, навіть має право на це).
Визначення джерел моделі штучного інтелекту нічого не змінює, оскільки умови використання до цього часу майже ніколи не були офіційно оголошені.
Google використовує, звичайно ж, усі дані crawler для пошуку та Google Bard тощо. Отже, контроль авторських прав через монопольну позицію Google на ринку фактично не можливий зараз.
Юридично багато виправдань можливі, щоб надати штучним інтелектовим моделям вигляд легітимності.