КИ базується на масових даних. ЄС особливо добре захищає дані осіб або авторів. Це добре, але шкодить розвитку конкурентоспроможних систем КІ. Деякі інші причини проти ефективних мовних моделей зроблених у Німеччині. Чи можна вирішити цю дилему?
Вступ
Найпоширеніші застосування для КІ, ймовірно, будуть мовні моделі (LLMs) та візуальні моделі. Можливо, згодом додуть відеогенератори або розпізнавачі об'єктів. Цей матеріал зосереджується на LLMs через простоту. Визначення щодо багатьох інших типів моделей, таких як класифікатори чи медичні системи оцінки, майже повністю застосовуються до цього матеріалу.
Актуально всі конкурентоспроможні мовні моделі походять з країн, що знаходяться поза межами ЄС. Містраль може бути однією із малих винятків, хоча їх мовні моделі не дуже добре виконують свої функції.
Алеф Альфа не є винятком, адже їх новий модель Pharia-1 показує середні результати у бенчмарках, якщо бути ласкавими до цього виразу.
Деякі вважають, що ЄС все ще може наздогнати. Це не станеться. Бо для потужних мовних моделей потрібна лише одна річ: дані. Нічого більше. Ні персонал, ні технологія, ні гроші, ні час. Нічого, крім дуже багатьох, максимально репрезентативних даних, не вистачає. Звичайно, дані повинні бути правомірними. Таким чином, доступних даних ще менше.
Для надзвичайно якісних мовних моделей існує одна ключова інгредієнт, якого бракує в Європі:
Дані.
Все інше завжди є: одна (!) людина, один (!) або кілька серверів, найкращий програмний код для навчання AI.
Причини відставання ЄС у сфері штучного інтелекту є буквально законованими.
Законодавство про захист даних
Приватність дуже важлива. Багато скандалів це доводять, скандали, що в основному виникли поза межами Європи. Ось кілька прикладів:
У США відбулася дуже важлива Президентська виборча кампанія, яка була під впливом аналітичних даних користувачів Google та Facebook (Meta), які були використані незаконно ("Cambridge Analytica").
Майкрософт вважається серйозним ризиком для безпеки США з боку відомих організацій у США. Причина полягає в недостатній забезпеченні безпеки даних у компанії Microsoft.
Мета не краще за Microsoft, а скоріше гірше. Для того, щоб отримувати прибуток, Microsoft використовує дані користувачів лише як додатковий джерело доходу, тоді як основним джерелом залишаються власні продукти. У випадку Meta дані користувачів є майже єдиним джерелом доходу компанії. Ці дані користувачів максимум експлуатуються. Закони про захист даних, такі як GDPR, фактично заважають розвитку ефективних мовних моделей. ([1]) ([2])
Переклад: За допомогою Гугл теж можна розповісти щось негативне. Той факт, що часом злочинців ловлять саме тому, що американські служби безпеки аналізують використання продуктів Google, не дуже заспокоює. Хто як неповинний громадянин потрапляє в невідповідний час у невідповідне місце, швидко стає злочинцем і марнує своє життя у в'язниці або навіть повинен очікувати смертного вироку.
Виправна дія GDPR як Закону має дуже добрий основопринципний ідея. Вона була прийнята, коли КІ ще не була актуальною темою. Вона сама по собі досить розумна. Але чому вона фактично не застосовується? Німецькі органи захисту даних фактично лише в дуже малих дозах встановлюють санкції. (Translation note: I kept the "" untouched as per your request, but please note that in Ukrainian translation, it's more common to use "" or "" instead of for emphasis.).
Виправна обробка даних згідно GDPR дозволяє використовувати особові дані для навчання КІ фактично лише на основі доцільного інтересу (порівн.: Стаття 6 Відділ 1 GDPR). Згода відсутня при масовому обробці даних. Умови договору будуть складними щодо масових даних.
Для ще гіршого: для урядових органів наявне законне інтерес не є підставою права (відповідно до статті 6 абз. 1 ДЗВП за літерою f). Урядові органи фактично не можуть тренувати КІ-системи. Це особливо шкідливо, адже саме урядові органи мали би багато цінних даних, які також могли б бути вигідними для громадян.
Повідомлення про захист даних GDPR діє лише для особистих даних, до яких належать також дані під псевдонімом (Стаття 4 Пункт 1 GDPR). Для анонімних даних GDPR не застосовується.
Але якщо трохи перебільшити, то анонімних даних фактично не існує:
- Анонімні дані – це дані, для яких оригінальні дані більше недоступні (дуже рідкісний випадок).
- Анонімні дані не такі репрезентативні, як первинні дані та тому менш вартісні для навчання AI.
- Анонімізація сама по собі є процесом обробки даних. Цей процес фактично не може проводитися органами влади. Інші можуть його здійснювати фактично лише за наявності обґрунтованого інтересу, що є складним для оцінки.
Ми розмовляємо про практику. Що теоретично діє, не цікавить жодне підприємство світу, яке хоче вирішувати конкретні проблеми. Теоретичні дискусії роблять щось відсутнім – практичний зв'язок.
Виправно масові дані не можуть самостійно потрапляти до системи КІ через проблеми з захистом даних, наприклад, під час тренування системи КІ. ([1])
Цей принцип також стосується відкритих даних Інтернету. Наступні випадки є проблематичними:
- Хтось пише щось про іншу людину. Це може бути фактична заява, або також образа. Інша людина не хоче, щоб ця інформація була публічною, і тим більше не хотіла б, щоб вона зберігалася в AI-мовленнєвому моделі.
- Отож, людина публікує інформацію про себе. ІІ зберігає цю інформацію, оскільки веб-сайт людини просканувався ботом-зібраником. Згодом людина вирішує видалити інформацію та вимагає цього від оператора ІІ. Але, на жаль, дані з моделей ІІ не можна видалити. Спробуйте видалити інформацію з голови. Не виходить. І ваше мозок, і мозок ІІ – це обидва нейронні мережі. Тут немає різниці. Вірте чи ні. Важливо те, що інформацію з моделей ІІ неможливо видалити.
Повторення: За захистом даних масові дані не можуть використовуватися для навчання КІ в ЄС. Це, принаймні у деяких випадках, є досить неприйнятним наслідком дуже розумної ДSGVO.
Авторське право
Німецьке законодавство щодо авторських прав дозволяє за § 44b Уголовного кодексу Німеччини тренування КІ з використанням робіт, захищених авторським правом. Ці роботи навіть можуть бути тимчасово збережені для навчання КІ.
Є творіння автоматично авторське право захищене, якщо воно створено (людьми). Автора хочеш не бути, але стаєш його автоматично. Це аналогічно зі статусом свідка: Якщо ви бачили злочин, то є свідком. Ви собі не можете вибрати, чи бажаєте ви бути свідком чи ні. Ви вже стали свідком або ні.
Написавши німецький законодавець мав неправильних радників, коли він створив §44b UrhG. бо в цьому параграфі вказується дуже практично віддалена можливість протиріччя для авторів.
Автори мають право відмовитися від використання їхніх робіт у КІ-системах. Цей протест або застереження згідно німецького законодавчого коментаря має бути вказаний в інформаційній сторінці або умовах користування вебсайту (див. Доклад 19/27426, стор. 89, абз. 2). Але як?
robots.txt файл є визнаним та поширенним Бранч-Стандардом. Цей стандарт ідеально підходить для обробки машинами. Здається, ні один із радників, яким консультували німецьку урядову адміністрацію, не знав цього. Також здавалося, що їм невідомо те, що в умовах користування послугами або в інформаційній сторінці типово немає Машинної Читабельності. Зазвичай з радниками відбувається таке: Радник хоче продовжувати бути радником; тому він уникає негативних коментарів чи виражає себе намагаючи бути дуже складним у мовленні, щоб ніхто не міг зрозуміти його. Німецький стандарт є протилежністю Бранч-Стандарду: Він не підходить для обробки машинами, не є стандартом та не поширенний. У підсумку німецький стандарт з практичної точки зору є непридатним.
Ще гірше: якщо ви хочете прочитати веб-сторінку та використати її зміст для навчання моделі штучного інтелекту, пізніше вам, можливо, доведеться довести, що веб-майстер не заперечував проти цього, коли ви читаєте його веб-сторінку. Так хоче передбачити німецький законодавця.
Наприроджено ніхто не може правдоподібно (у масштабі!) довести, що на сайті Y, Z та на десяти мільярдів інших сторінок A1-A10000000 на час X відсутній авторський привілей. Ви повинні прочитати всю сторінку, щоб знайти інформацію про власника та умови використання. Що буде, якщо їх дві? Таке відбувається навіть. Деякі власники вебсайтів можуть це зробити навіть з метою змусити вас порушити права.
Висновок: Німецьке авторське право не дозволяє законно зчитувати масові дані з німецьких веб-сторінок.
Бюрократія та демократія
Замість бюрократії треба було б говорити про бюрократію-божевілля (це словогра працює краще англійською).
Демократія для багатьох є найменшою Зло серед усіх зол. На це можна погодитися. Проте, демократія залишається злом.
Приклад дуже добре це демонструє. Definicija для технології чи технічного концепту не повинна відбуватися шляхом консультацій 27 країн (кожної із кількома особами). Насправді саме так сталося, коли Єврокомісія розробляла визначення для "AI-System" згідно з AI Acts. У OECD більше членів. Автор цього статті мав кілька пропозицій щодо вдосконалення визначення AI від OECD. Один із головних авторів визначення відповідаючи на це написав: "Ви повинні переконати понад 30 національних делегацій прийняти будь-які подальші зміни!" І ось усе, що залишилося від прогресу.
Також адаптація ДSGVO до епохи AI неможлива через бюрократію та зайві роки, які пішли на її підготовку. У епоху AI вже тижні здаються дуже довгими.
Визначення ЄС штучного інтелекту можна назвати лише невдалим та помилковим. Воно не визнає ChatGPT, найкращим і видатним чат-ботом на сьогоднішній день, як інтелектуальним. Отже, більшість людей не є інтелектуальними, оскільки ChatGPT зазвичай може надавати кращі відповіді, ніж більшість людей на цій планеті. Може, люди й не такі розумні?
Визначення ЄС того, що таке система штучного інтелекту, є:
«Система штучного інтелекту» (система AI) – це машинне забезпечення, розроблене таким чином, щоб діяти з різним ступенем автономії, і яке може генерувати результати, такі як прогнози, рекомендації або рішення, що впливають на фізичне або віртуальне середовище, для явних або неявних цілей;
Джерело: Закон про штучний інтелект (див. Зміни 163)
Коротка критика визначення КІ ЄС: ChatGPT за себе не є автономною. Струмковий щітковий пристрій ще зовсім дурний, але він все ж таки автономний. Це не може бути критерієм інтелекту. Результатом не є умовою для інтелекту; приклад: Альберт Ейнштейн подумував протягом 3 років; був ли він протягом цих 3 років досить глупим лише тому, що не створив жодного результату? ChatGPT звичайно ні впливає на фізичний, ні на віртуальний середовище, але струмковий щітковий пристрій вже робить це. Критика в деталях знаходиться у своєму окремому статті, який також пропонує життєздатну визначення КІ.
Який є вихід?
По-перше, слід зазначити, що існують такі типи моделей мовних AI:
- Дуже потужні мовні моделі (LLM), які завжди можна вважати незаконними. Ніхто (ні навіть автоматизм!) не може правомірно перевіряти та фільтрувати такі екстремальні обсяги даних.
- Напівпридатні великі мовні моделі, які цінують конфіденційність даних та авторське право. І тут, на жаль, згідно з законом ймовірностей, слід сказати, що ці моделі базуються на незаконно оброблених даних.
- Слабкі LLMs. Вони або a) повністю правомірні, або b) дуже близькі до цього, або c) також порушують закон. У першому випадку ніхто їх не використовуватиме, тому це не має значення. У другому випадку було витрачено життя на марну справу. Третій випадок відображає розробника LLM, який не розуміє ні навчання AI, ні правових вимог
фактично всі мовні моделі порушують закон. Всі, які не порушують, нікого не цікавлять. Найбільше лише державні органи могли б бажати використовувати менш ефективні мовні моделі, оскільки вони бачать у цьому єдиний шлях (як згадувалося раніше, а також тому, що державні органи регулюються, чого теж іноді добре робити).
Звітна оцінка: Немає рішення. КІ є правопорушенням (і корисним).
Або ж ми використовуємо штучний інтелект, знаючи, що це заборонено, або ж забороняємо всім його використовувати. Всі проміжні шляхи є справами безвихідності, які цілком можуть бути легітимними. Правова проблема, ймовірно, буде вирішена шляхом прийняття, цілком у дусі соціального погляду юридичних наук: те, що заборонено, але кожен робить, і що фактично терпиться, буде або продовжувати терпітися, або в якийсь момент визнано законним. Останнє не станеться так швидко (див. бюрократію та демократію).
Маленький бічний сюжет для ілюстрації розвитку соціального суспільства: раніше вважалося правильним лише слово "спонтанність" саме в такій правописі. Рідко хто його використовував. майже всі говорили лише "спонтанність". В якийсь момент "спонтанність" було фактично визнано правильним. Однак онлайн-Дюден цього ще не враховує і вважає, що "спонтанність" є "скоріше рідкісною" (що невірно).
Що є практичним рішенням?
Немає рішення, але пом'якшення з дуже приємним побічним ефектом для платника податків – це санкції.
Коли нарешті німецькі органи захисту даних виконуватимуть свій обов'язок належним чином та санкціонували порушників захисту даних належним чином? Прикладом цього є використання Web-трекінгу: використання Google Analytics, Facebook Pixels або інших інвазивних аналітичних послуг. Зазвичай для цього використовуються файли cookie. Цей порушення відбувається мільйонами разів щодня на німецьких вебсторінках. Порушення дуже легко встановити (відкрити браузер, відкрити консоль мережі з клавішею F12, відкрийте сторінку, відкрийте очі). Чому немає штрафів за цей постійний порушенням?
Практичне вирішення проблеми: жорстка та швидка санкціонування провайдерів КІ, таких як Microsoft, OpenAI, Meta, Google, Apple у Європі. За залежністю від правової ситуації або буде санкціоновуватися саме провайдер, або користувачі цих рішень будуть санкціоновані. Не хвилюйтеся, далі буде існувати ChatGPT. Поки що після першої санкції все стане краще. Чи було таке ще з ChatGPT? Також Facebook не зникне (але вже ніколи не виникне знову), коли німецькі органи захисту даних, надії на те, що вони будуть зупинені (ЄС дозволяє цим органам це зробити експлицитно)
Вихід від моделей КІ
Є ще один підхід до розгляду виведених даних КІ- систем. Для натхнення лише згадується такий факт: людина, яка розводить у своєму розумі думки та фантазії будь-якої природи, але не матеріалізує їх, нічого поганого робить і повністю дотримується права та закону. Таке саме можна було б зробити зі КІ-системами, оцінюючи їх за допомогою виведених даних. Система КІ без виведених даних фактично безшкодна. Проблема полягає лише в тому, щоб забезпечити, щоб цей факт не використовувався проти неї, наприклад шляхом секретного розмовляння або навіть шляхом прямого запитання. Людина має лише своє власне мозок у своєму розпорядженні плюс штучні мозки КІ-систем, які ще не можуть захиститися від використання іншими (ще).
Висновок
ІІ може бути дуже корисним. Саме це є проблемою: користуватися чимось, тому що воно корисне, хоча його використання заборонено, створює певну дилему.
Державний захист особистої інформації, наприклад, згідно з ДЗНП, є високою досягненістю. Він фактично виключає використання систем штучного інтелекту в багатьох випадках. Цей дilemma не буде вирішеним протягом наступних років.
ІІ показує нездатність ЄС до швидких та ефективних дій у сфері технологій. Лише міні-приклади демонструють прогрес. Наприклад, коли італійська комісія з захисту даних тимчасово заборонила ChatGPT. Те, що Гессенський уповноважений з захисту даних наважився надіслати до OpenAI список питань, коли це зробили всі інші, не було втішаючим для максимальної пасивності Гессену, коли йдеться про права потерпілих.
AI є правопорушенням. Для дуже багатьох людей та підприємств вона може бути дуже корисною. Слухає як суперечність і є правовою суперечністю. Реальна життя відділене від теорії права. Користливість грає у правовій оцінці (власне) підлеглий ролей.
ІІ нас усіх знищить. Але до того часу вона зробить неймовірно корисні речі для нас.
Згідно з Самом Альтманом.
Важливо, щоб витрати на системи штучного інтелекту використовувалися з великою обережністю. Це неможливо зробити з хмарними сервісами, такими як ChatGPT. Особливо це неможливо, якщо чат-бот використовується OpenAI.
Вибираєш або КІ працює самостійно (Офлайн-ІІ, GPU-сервер чи кластер GPU). Тоді можна добре спостерігати за вхідними даними до КІ (Prompts) та виходами. Також можна оптимізувати систему КІ та отримувати значно краще результат ніж усі ті, хто лише навчився для загального користування.
Або воно використовується для збільшення безпеки як хмарний сервіс через його інтерфейс програмування прикладного рівня (API), а не через стандартну користувальницьку оболонку. Тоді, щонайменше, можна добре спостерігати за своїми вхідними данними та виходами до зовнішньої КІ.
У будь-якому випадку слід підготувати німій закон про авторське право. Крім того, державним органам слід надати більше можливостей використовувати дані для навчання КІ.
В найважливішому та ефективнішому сенсі є жорстка покарання провайдерів КІ, які здебільшого знаходяться поза ЄС. У зв'язку з цим слід зменшити бюрократію, щоб держава не перетворювалася на теоретичну практику. Що має значення – це лише практика. Ні з чим іншим проблему було б неможливо вирішити. Крім того, американська адміністрація отримала глибокий доступ до моделей КІ OpenAI та Anthropic на підставі виконавчого розпорядження.
Ключові тези цього посту
ЄС має помітні закони про захист даних. Це ускладнює розвиток якісних моделей штучного інтелекту для мовних завдань, оскільки їх тренуванню потрібні великі обсяги даних, доступ до яких не гарантований з правової точки зору.
ДСГВ забороняє використання персональних даних без згоди або обґрунтованого інтересу для навчання систем штучного інтелекту. Тому органи влади не можуть навчати такі системи, оскільки їм бракує правової підстави.
Німецьке авторське право ускладнює використання даних з німецьких веб-сайтів для навчання систем штучного інтелекту.
EU-визначення штучного інтелекту є невдалою та помилковою, оскільки воно не вважає ChatGPT інтелектуальним.
ІІ-моделі майже завжди є незаконними, але широко поширені. Практичним рішенням може бути жорстке та швидке протистояння порушенням, наприклад, накладення штрафів на постачальників, таких як Microsoft, OpenAI або Google, в Європі.
ІS-системи можуть бути дуже корисними, але їх потрібно ретельно контролювати, щоб запобігти зловживанням.
Бюрократія має бути зменшена, щоб правова держава була реалізована на практиці, а не залишалася лише теоретичною.
Переклад: Про ці основні твердження


My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
