Вільно багато хто вимагає регулювання застосування КІ. Масові дані для навчання моделям КІ повинні не містити особистих даних, навіть якщо вони походять з відкритих джерел. Таке вимагає наприклад федеральний комісар із захисту даних. Що це означає в практиці?
Вступ
Є модель КІ, яка є електронним мозком, що представляє нейромережу. Підключення між нейронами відображають знання, цілком аналогічно до людського мозку. Знання вводиться шляхом завантаження мільйонів або мільярдів онлайн вільно доступних документів. До цих документів входять зокрема вебсторінки.
У багатьох з цих текстів, які потрапляють у моделі КІ, наявні особисті дані. Ці дані потрапляють до даних для навчання штучної інтелегенції. А ще більше: витрати, які генерує чат-бот на основі даних для навчання, можуть містити ці особисті дані також.
З чимось проблемним здається з погляду деяких, зокрема німецького федерального комісара із захисту даних, те, що ці дані особистих осіб потрапляють у моделі КІ. З цих даних в моделях КІ виникають кілька питань:
- Чи людина, яка володіє данними (підлягає захисту), згодна з тим, щоб її особисті дані потрапляють у певний модель штучного інтелекту? У більш детальному сенсі (якщо немає обов'язку щодо отримання згоди):
- Як можна власнику даних заборонити використання їхніх даних у моделях КІ (Opt-Out)?
- Як можна видалити дані з вже наявного моделю КІ після створення?
З цих питань виникає ряд проблем у практиці, які будуть обговорені нижче.
Коли перед нами стоїть питання про особисті дані людини?
Об який саме дані стосуються особистих даних чи ні, дуже часто не можна або не зовсім встановити. Чоловік може розпізнати власні імена людей досить добре, але зовсім не завжди. Комп'ютер (МК) здатний зробити це ще гірше.
Прямі дані про людину, такі як імена чи адреси, в принципі не можуть бути ідентифіковані машинами з достатньою точністю.
Об автомобільному номерному знаку, телефонному номері чи імені компанії ніхто не знає, хто вони стосуються (окрім людини, яка добре знайома з цим автомобільним номером, телефоном або компанією). Звідси випливає, що машина не може навіть здогадуватися, чи «Маєр ГмбГ» є значенням особистих даних. Назва компанії вважається особистими даними тоді, коли можна зробити висновок щодо особи (див. Стаття 4 п. 1 ДЗП). Назва компанії з однією особою явно є особистими даними. Назва компанії із 50 працівниками явно не є особистими даними. Коли ж назва компанії із 50 працівниками згадується разом із іменем працівника, який має 1,98 метра зросту («найвищий працівник нашої компанії»), тоді ця поєднана інформація про назву компанії та розмір працівника вважається особистими даними.
Автоматизовано дані ніколи не можуть бути цілком достовірно класифіковані як особисті або неособисті.
Алгоритми завжди несуть значні невизначеності при визнанні особистих даних.
В особливості при попередньому прикладі помітно, що ніхто та нічого не можуть вважати дані надійними щодо їх особистого характеру чи ні. А навіть телефонному номеру ніхто не може прямо побачити, чи він належить особі чи компанії і чи ця компанія складається з однієї особи або декілька осіб.
Як можна заблокувати дані від використання в моделях КІ?
Довга відповідь така: Ні. Відповідно до сучасної ситуації, ніякий стандарт для захисту даних на вебсторінках від зовнішнього доступу не існує. Читання публічної сторінки завжди можливе. Це саме призначення вебсторінки – зробити її доступною якомога більшій кількості людей. Програми-роботів (Crawler, Scanner) майже неможливо відрізнити від людини. Багато вебсторінок навіть не мають можливості спробувати щось технічне щодо цього. Така ситуація відповідає сучасній технології.
Єдиний зараз практичний шлях — використання файлу robots.txt. Цей файл дозволяє власникам вебсайтів визначати, які пошукові системи мають доступ до їх вмісту та які ні. З часом цей файл також починають дотримуватися деякі програми штучного інтелекту, що скраплюють вміст.
Виключення власних даних від використання в моделях КІ не технічне можливе.
Сьогодні і далі.
Вельми багато застосунків з інтелектуальної власності не цікавляться цією robots.txt файлом або будь-якими бажаннями власників вебсайтів щодо відмови від використання їх вмісту для обробки AI. Крім того, це лише бажання і не технічні визначення. Хоча ChatGPT, наприклад, каже, що воно дотримується бажань вебсайту щодо блокування змісту вебсайту для обробки AI за допомогою ChatGPT, це всього лише питання віри. Кому ще можна довірити OpenAI та ChatGPT, слід згадати про факти:
- Вищі органи захисту даних Італії заборонили ChatGPT через те, що OpenAI зберігав дані користувачів, здається, незаконно, наприклад, їхні повідомлення.
- Відкритий AI не запитує згоди користувача, а лише пропонує можливість відмовитися від цього.
- Відкритий AI тепер рекламує ChatGPT Enterprise та перевагу «Отримайте підприємства рівень безпеки та конфіденційності». Що значить перекладено: «Ми дотримуваємося лише правил захисту даних, коли ви купуєте підприємство версію».
Хто вірить підприємств, якими є OpenAI, Google чи Microsoft, коли їм повідомляють щось таке, що приносить спокій, хоча раніше вони вже багато разів показували занепокоєння, такий людина не діє раціонально, а жадає.
Дані з веб-сканування баз даних, як The Pile або Common Crawl або C4, спочатку діють незалежно від ChatGPT, потім вони включаються у навчання великих мовних моделей разом із ChatGPT та іншими КІ-моделями. Таким чином, проблема перетворюється на багатовariantну проблему, тобто одну проблему на кожного читача даних.
Як видаляються дані з існуючого моделю КІ?
Коротка відповідь: Ні. Зокрема, поки немає математичного процесу, за допомогою якого з моделювання інтелектуальної діяльності можна видаляти дані із високою хірургічною точністю (або взагалі).
Дійсно єдиний спосіб видалення даних з існуючого моделю AI полягає у викианні цього моделю і повному його переобученні. Під час повторного навчання дані, які потрібно видалити, не будуть більше враховуватися під час навчання.
З даних існуючого моделю КІ не можна видалити дані.
Сьогодні і далі.
Клист дуже складний і дорогий. Просто так воно й є. Вивчення моделі КІ від нуля до кінця особливо для великих мовних моделей дуже тривалі, дуже дорогоцінне та займає відчутну вічність навіть на величезній фермі серверів. Сервер КІ споживає багато енергії і дуже дорогий тому що він використовує мінімум дуже дорогу або декілька дуже дорогих відеокарт одночасно, щоб виконувати дуже тривалі розрахунки протягом прийнятного часу.
Є практична, але не дуже приваблива можливість отримувати дані з системи штучного інтелекту офіційно – це відповісти моделю шляхом застосування фільтра. Фільтр видаляє всі згадки певної особи або номера телефону. Однак ця дія не завжди ефективна. Крім того, дані можуть бути наявні навіть тоді, коли вони знаходяться в моделі, але не надаються у відповідь. Аналогічно ситуація з електронною поштою колишнього контакту, який бажав знищити свої дані, але вони були знищені не були. Коли наступний перевірка буде здійснена органом державного нагляду або слідчими органів, які, згідно зі словами автора статті, майже ніколи не відбуваються, або при наступному витоку даних через хакерський напад, ця ситуація стане очевидною для всіх.
Що змінюється завдяки штучній інтелекту насправді?
Пошукові машини вже давно також видають відповіді з прочитаних вмістів. Ці відповіді, звичайно, не завжди збігаються із фактичною інформацією. Про це ще жодна організація захисту даних не хвилювалася, наскільки відомо мені.
КІ-підсилювані чат-боти можуть давати відповіді в новій формі, що називається абстракцією. Замість цитування користувач отримує текст у нових словах. При цьому особливо легко виникнути помилкові або хибні відповіді.
У соціальних мережах кількість помилкових повідомлень щодо осіб, безумовно, не дуже низька. Тому хвилювання, викликане спеціально через КІ, цілком зрозуміти не можна. Сучасні висловлювання трохи схожі на акціонізм.
Захистивши честь багатьох із них, відзначимо, що невідоме ("інтелектуальна інженерія") здається багатьом дуже серйозним, тому вони хочуть щось проти цього зробити. Що з цього вийде бажання, яке не реалізується, аналогічно до § 26 TDDDG, який був написаний лобістами у законодавчий акт.
Контроль над власними даними
Фактично ніхто не має технічного контролю над своїми даними, коли вони потрапляють у чужі руки, наприклад, після публікації на вебсайті чи використання/розповсюдження даних на соціальній мережі.
Вірогідно, федеральний комісар із захисту даних має на увазі контроль над власними даними щодо використання в моделях штучного інтелекту певних платформ, де людина є власником облікового запису. Цей випадок важливий і важливий, але не пов'язаний з штучним інтелектом зокрема. Безумовно всі особисті дані повинні оброблятися лише згідно із законодавством ЄС про захист даних, незалежно від того, здійснюється це шляхом штучного інтелекту чи іншими засобами.
Об'єднана підсумкова інформація
Персональні дані не можуть бути надійно ідентифіковані як такі. Ні людина, ні машина не здатна цього зробити. Так буде назавжди, якщо тільки визначення Стаття 4 п. 1 РГДПЄ, яке визначає, що це персональні дані, зміниться.
Дані не можуть бути заборонені для використання в моделях штучного інтелекту. Цей проблем можна було б вирішити лише за допомогою законодавства. Технічним чином це ніколи не буде цілком безпечне рішення. Натомість потрібно було би покладатися на те, що крейлери будуть дотримуватися вимог (хоча вони бажання!) вебсайту. У цьому випадку майже краще було б покладатися на Microsoft, навіть з масивними безпековими лунками, які підприємство створює, ігнорує та зменшує.
Кібернетична інтелект не може бути задовільно регулюваним, навіть якщо бажання таке очевидне.
Замови не змінюють об'єктивні межі реальності.
Дані не можуть бути видалені з існуючих моделей штучного інтелекту. Цей проблем може бути вирішено теоретично. Відрізняється більша ймовірність того, що моделі штучного інтелекту будуть швидко знову обчислені вже найближчим часом, коли обладнання та чипи графічних процесорів (GPU) ще більше швидші і дешевші.
Результат
Хтоське бажання регулювання КІ зрозуміле. Але воно призводить до вимог, які неможливі та практично не реалізовувані. Чи це зроблено з метою створення враження виконання політичних обов'язків чи це просто відсутність знань – залишається без відповіді. ([1])

Кібернетична інтелектна система в собі подібна до людини. Люди звичайно не надійні. Це помітно вже при наступній домовленості щодо зустрічі. А так звані експерти часто приходять до неправильних або поганих результатів. чому б повинна бути інакше у комп'ютерному програмі, яке наслідує функцію інтелекту людини ([1]) ?
Натомість ніж загальні неосвітлені вимоги, дуже великі компанії повинні бути обережно вивчені та конґрентно, швидко і болісно санкціоновані. З отриманими висновками можна буде вивести подальші заходи.
Незалежно від типу загальновизначених правил поведінки ринку варто зауважити, що потенціал прикладів КІ вже не зупинити ні на чому. Кожен може створити під своїм столом модель КІ або завантажити та використовувати існуючу. Було б дуже протиправо, якщо ці моделі КІ можна було б використовувати по всьому світу, окрім Німеччини чи ЄС.




My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
