Усі чомусь думають, що штучний інтелект – це круто. Тому всі говорять про АІ. Оскільки ШІ – дуже складна технічна галузь, існує багато напівправди або неправдивих тверджень. Все це підігрівається маркетинговими обіцянками від Microsoft та інших компаній. Ця стаття роз'яснює, що є правдою, а що слід віднести до категорії альтернативних фактів.
Поширені помилкові уявлення про штучний інтелект
Через часто однобоке висвітлення, яке завжди обертається навколо ChatGPT або продуктів штучного інтелекту Microsoft, виникає безліч хибних уявлень. Ось деякі з них:
- Мовні моделі базуються на статистиці і тому не є інтелектуальними.
- ШІ-система – це алгоритм.
- ШІ – це інструмент.
- ШІ-система може працювати точно.
- ChatGPT не є інтелектуальним.
- ChatGPT – найкраще рішення.
- ШІ можна прирівняти до ChatGPT (OpenAI), Claude (Anthropic), Mixtral (Mistral) або Command R+ (Cohere). Більше нічого немає.
- Дані захищені в корпорації Майкрософт.
- ШІ можна експлуатувати з дотриманням законодавства.
- Токени не є реальними даними.
- АІ-моделі не зберігають жодних персональних даних.
З цих помилкових припущень часто виникають Справжчі вигадки. Наприклад, деякі з них будуть пізніше роз'яснені нижче. Замість інших послуг хмарного обчислення далі буде говорити лише про ChatGPT.
Хибні твердження про ШІ
Наступні твердження в тій чи іншій формі можна було прочитати в соціальних мережах. Заяви були сформульовані в загальних рисах у тих місцях, де вони були знайдені, або були конкретними, але, тим не менш, некоректними.
ChatGPT не є інтелектуальним
Після визначення штучного інтелекту згідно з Директивою ЄС щодо захисту даних (DSGVO) ChatGPT вважається розумною. Ця визначення штучного інтелекту виглядає так:

За словами Алана Тьюринга, видатного математика часів Другої світової війни та кодувальника шифрувальної машини "Енігма", ChatGPT також є розумним: він пройшов тест Тьюринга. Тест перевіряє, чи відповіді машини не відрізняються від відповідей людини. І навпаки: ChatGPT часто (можна сказати, майже завжди) дає значно кращі відповіді, ніж середньостатистична розумна людина.
Нова визначення КІ-настанови щодо КІ також визначає ChatGPT (можливо) як розумну. Дивіться Стаття 3 AI Act від 12.07.2024.
Що таке інтелект? Щойно було дано визначення штучного інтелекту. Просто видаліть з визначення двічі атрибут "штучний". У вас є визначення інтелекту. Люди не претендують на монополію на інтелект, навіть якщо багато хто хотів би, щоб це було так.
Інтелект базується на людських стандартах
Багато хто вважає, що інтелект – це те, що визначається людиною. В оновленому визначенні того, що таке штучний інтелект, в Регламенті ЄС про штучний інтелект зазначено, що штучний інтелект повинен досягати цілей, "встановлених людиною…".
Для цієї помилки немає жодної причини. Люди не мають значення, коли йдеться про визначення того, що таке інтелект. До цього часу їх можна було щонайбільше використовувати як мірило. У майбутньому це, ймовірно, буде вже не так.
До речі, розумну поведінку приписують і деяким видам тварин. Очевидно, що тварини – це не люди.
ChatGPT – найкраще рішення
Це залежить від того, для чого він потрібен. ChatGPT часто є чудовим механізмом для пошуку відповідей на повсякденні завдання. Особливо це стосується знань про світ або загальних завдань, які також відображаються в навчальних даних ChatGPT.
ChatGPT, здається, не підходить для всіх конкретних завдань, які потрібно обробляти досить професійно. Один приклад: конспектування тексту без галюцинацій. Інший приклад: пошук знань.
ChatGPT, безумовно, не може і не хоче вичищати для вас значну частину Інтернету або веб-сайту. Зрештою, ви або "тільки" платите своїми даними і даними інших людей. Або ви платите $20 на місяць або жалюгідну суму за виклик API.
Таким чином, ChatGPT може отримати доступ лише до вже відомого або невідомого контенту невеликого обсягу. Термін "невеликий обсяг" стосується кількості документів або веб-сайтів.
ChatGPT не є хорошим рішенням для таких завдань, як оцифрування документів, оскільки тут є багато особливостей, які слід враховувати.
ChatGPT – це погано
Це залежить від того, для чого. ChatGPT – це не пошукова система. Якщо ви використовуєте систему не за призначенням, не варто дивуватися посереднім відповідям. Система зі штучним інтелектом також не призначена для того, щоб рахувати літери в слові.
ШІ добре вирішує складні завдання творчо. Але той же АІ погано виконує точну роботу. Так само, як і люди!
Навчання ШІ коштує дорого
Це правда, що навчання великих мовних моделей, таких як ChatGPT, є дуже дорогим і трудомістким.
Однак правда й те, що можна дуже дешево навчити власні мовні моделі штучного інтелекту. Причина полягає в тому, що ці кастомні моделі спеціалізовані для конкретних випадків використання. У багатьох випадках такі моделі можна навчити на ноутбуці або власному ШІ-сервері всього за кілька годин.
Оскільки ваші власні комп'ютери зі штучним інтелектом зазвичай увімкнені та працюють, витрати на навчання ШІ дорівнюють нулю.
Тому навчання ШІ в більшості випадків можливе безкоштовно.
Висновки коштують дорого
Висновок – це опитування моделі ШІ, наприклад, чату за допомогою мовної моделі, такої як ChatGPT.
Це правда, що великі мовні моделі, такі як ChatGPT, вимагають десятки або навіть сотні серверів одночасно, щоб згенерувати відповідь на ваше запитання. Це дорого коштує.
Однак також вірно і те, що консультація з самокерованою мовною моделлю ШІ нічого не коштує.
Це означає, що витрати на висновок у більшості випадків дорівнюють нулю. Нас не хвилює, скільки OpenAI платить за свої сервери, так само як і OpenAI не хвилює, скільки ми платимо за наші комп'ютери.
Microsoft Azure і ChatGPT захищені
Вільно багато хто пропонує свої "рішення" як інноваційне. Одна банка навіть говорила про введення власної (приватної) КІ, маючи на увазі Microsoft Azure. Azure є протилежністю безпеки. Саме Microsoft об'єктом численних хакерських атак. Крім того, слід зауважити, що Microsoft не віддає першу приоритетність темі безпеки .
Крім того, у Microsoft є величезна потреба в даних. Новий Outlook хоче отримувати електронні листи від клієнтів для власних цілей; Windows постійно надсилає дані користувачів до Microsoft тощо.
Microsoft Copilot sei gut
Початкові тести показують, що все навпаки. Другий пілот повинен конспектувати текст. Інструкція (підказка) для цього була дуже простою і однозначною. Текст був заданий безпосередньо. Довжина тексту була досить короткою, оскільки поле введення у веб-інтерфейсі Copilot не дозволяло ввести більше.
Тестовий звіт із знімками екрану відкриває, що Copilot явно непрацює для деяких завдань повністю. навіть при доброзачинній оцінці не вдається знайти щось позитивне у результатах Copilota. Підсумок частини статті Dr. DSGVO був настільки помилковим, що людина міг би за нього соромитися. Copilot вигадував численні заяви просто так і виконував поставлене завдання зовсім ніде.
Натомість Microsoft робить на кожному місці так, якби Copilot була чудовою рішенням і відповіді були використані безпосередньо. Нідде не можна було прочитати, що якась відповідь могла бути помилкою або щось подібне.
Мовні моделі на основі статистики
Так, саме так. Саме так працює граматика. Саме так працює інтелект. Подивіться на людський мозок. Мовні моделі навчаються не так, як люди, які роблять подальші кроки, щоб дати відповідь.
Все наше існування базується на ймовірності: Порівняйте радіоактивний розпад або, навіть більш загально, квантову фізику. Все засноване на випадковості. Все. За потреби, будь ласка, запитайте когось, хто знає щось про квантову фізику.
Є жодна роль, чому система розумна. Важливо лише результати. Хто ще вірить, що людський мозок не "хабарий", для нього, можливо, навіть не цікаво буде звіт про штучний мозок щуркатакож. Вдало вдалося відтворити рухи та відповідні мозкові активації за допомогою симуляції.
ШІ можна використовувати з дотриманням законодавства
Теоретично це може бути так. На практиці ж виникають деякі питання:
- Звідки беруться мільярди або навіть трильйони записів даних, які завантажуються в систему штучного інтелекту для її навчання?
- У випадку з хмарними сервісами, такими як ChatGPT або Azure, виникає питання, чи достатніми є правові умови.
- Чи можна взагалі дотримуватися статті 44b UrhG (Закон Німеччини про авторське право)?
- Як можна видалити дані з наявної моделі ШІ?
Захист запитання 3: Німецький законодавець вимагає, щоб крейлери могли читати вміст вебсторінок лише тоді, коли власник сторінки не заперечував проти цього. Заперечення повинно бути, згідно з Німеччиною, у інформаційній листівці або умовах використання. Це цілком практично і недосяжне за технічними міркуваннями. Крейлери не розуміють формулювання щодо відмови в природній мові. Немає штучної інтелегенції крейлерів. Є лише глупі крейлери, які забезпечують вміст для систем, які повинні стати розумнішими або вже є такими. Файл robots.txt був би доброю рішенням. Погано, Німеччина пропустила цю можливість. Крім того, власник крейлера пізніше повинен буде підтвердити відсутність відмови. Це майже не реалізовується в практиці. Отже, крейлінг німецької сторінки завжди був великим правовим ризиком і часто навіть забороненим.
Завдання 1: Дані походять з Інтернету. Тексти, фотографії та інші твори за своїми правами охороняються авторським правом. Авторське право виникає при створенні твору автоматично, якщо він має необхідну рівень створення. Отже, ці матеріали можуть бути прочитані або ні (див. питання 3) лише протягом часу, поки власник прав не відмовляє у цьому. Генеративна КІ створює результати, які потенційно охороняються авторським правом і тому є незаконними. Поки що тільки читання було дозволено, але створення відповідей від КІ ні.
Видалення даних у моделях КІ** не є надійним можливим. Модель КІ повинна продовжувати працювати незаконно, якщо людина хоче бачити свої дані в моделі КІ (або принайменні в відповідях КІ) більше не видно. Видалення моделі КІ та її перезавантаження для великих моделей типу ChatGPT не є можливим, оскільки дуже дорого і займає багато часу. Нові запитання щодо видалення знову затримають процес. Для офлайн-КІ ця проблема не існує.
З питань 2: Дивіться вище для доказів, чому Microsoft та її платформи вважаються небезпечними. Крім того, правові документи, які встановлює Microsoft і OpenAI користувачам, викликають питання щодо особи, яка належним чином перевірить ці документи, та що відбувається, якщо виявиться недолік. Обговорення проблем може бути популярною тактикою, але вона не розв'язує справжнє завдання. Крім того, Microsoft бажає зібрати багато даних, як показують практичні приклади (дані Windows Telemetrie, новий Outlook із величезним споживанням даних та доступом до електронної пошти клієнта за допомогою облікових даних клієнта…), чому варто довіряти цим підприємствам? Ні жодного приводу немає.
ШІ – це алгоритм
"Алгоритм — це […] єдиний інструктаж дій для вирішення проблеми чи класу проблем." (Джерело: Wikipedia, жирний шрифт тут доданий).
КІ-система заснована на нейронному мережі. Чи це можна вважати алгоритмом у вузькому сенсі, більше ніж сумнівно. Безумовно для людини нейронна мережа не є цим. Особливо тоді, коли мова йде про глибокі мережі (звідси і термін Deep Learning).
Зрештою, людей теж не можна описати як алгоритми. Їхній мозок також складається з нейронної мережі.
Також треба відмовити в ствердженні, що КІ-система це алгоритм. На сайті Вікіпедія не вважається, що КІ-система є рівнозначною алгоритму. Натомість підвищенню ефективності навчання приписується алгоритм, що цілком розумно, оскільки поліпшення нейронного мережі відбувається шляхом виконання певних математичних операцій під час навчання.
Якщо ви вважаєте, що ШІ – це алгоритм: будь ласка, поділіться випадком, коли ви вважаєте, що автоматизоване вирішення проблеми НЕ є алгоритмом. Нам цікаво!
ШІ – це інструмент
Це приблизно так само вірно, як сказати "автомобіль – це купа матерії" або "файли cookie – це файли". Тоді все або нічого було б інструментом. Інформаційний зміст тоді дорівнював би нулю. Отже, це твердження не є корисним.
Чи не варто вважати Інструменти з підтримкою ШІ за такі, коли мова йде про КІ як про інструмент? Неправильне використання мови ніяк не підвищує розуміння.
У будь-якому випадку, інтелект – це не інструмент, а (видатна) властивість системи.
Мовні моделі не могли логічно виводити
Факт: мовні моделі можуть краще розв'язувати висококомплексні математичні питання, ніж майже кожен чоловік на землі. Якщо КІ-система робить це, прочитавши всі можливі завдання та вивчивши з них уроки, тоді вже було використано слово "вивчати". Якщо залишити лише "читання", то може бути так, що КІ-система зможе розв'язувати усі можливі раніше невідомі проблеми, якщо вони тільки трохи схожі на відомі завдання. де різниця між цим та майже всі людьми?

Будь ласка, прочитайте математичні завдання, які були поставлені перед системами КІ під час AI Math Olympiad (AIMO). Якщо ви навіть розумієте ці завдання, вони явно складають дуже малий відсоток світової населення, яке вважає за свій глибоке математичне розуміння.
Водночас автор цього статті з допомогою найкращого математичного моделювання зміг вирішити дуже складну математичну задачу, про яку він лише знав (від математика), що вона може бути вирішена за допомогою діофантових рівнянь. Ні ідея, чого таке діофантові рівняння. Різдво стосується моряків і кокосових горішків і, ймовірно, ні з кого на Землі ніколи не зможе самостійно вирішити його. Для цього довгий німецький (!) текст завдання було введено у математичний модуль англійською мовою. Відповідь КІ була помилковою, але спроба шляху до рішення була так близько до рішення, що з дуже малою затратою часу вдалося знайти правильне рішення самостійно.
Токени не є реальними даними
Точніше: дехто вважає, що лише тому, що тексти зберігаються у вигляді чисел у мовних моделях, мовні моделі не зберігають оригінальні дані.
Sprachмоделі зберігають текст у формі рядків чисел (векторів). Для цього слова розбиваються на фрагменти, які називаються токенами. Кожний токен відповідає числу. Ця відповідність фрагментам слів до чисел є у кожного мовного моделювання індивідуальною та встановлюється в словнику (вocabulary). Цей словник при кожному мовному моделі зберігається як текстовий файл. В будь-який час можна переглянути цей текстовий файл і вивчити його.
Збірка чисел 4711, 0815, 9933 може бути відповідністю послідовності літер Maxi, mi, lian. Відкрито, що ці числа можна відсилати до слів. Таким чином, рядки чисел стають особистими, якщо вони кодують літери особистих даних. Також дані, які можна отримати шляхом виводу на людину (див. Стаття 4 Нр. 1 GDPR).
Наприроді справи мови моделі утворюють свій вихід, зокрема, шляхом кумулятивних вірогідностей токенів. Враховуються не лише два токену, а ціла ланцюжка токенів. Технічний параметр, який керує цим, називається top_p.
Тому гамбурзька дисертація (див. нижче) в корені невірна. Схоже, вона була написана таким чином, щоб легалізувати всі системи штучного інтелекту, більшість з яких, швидше за все, є нелегальними.
Мовні моделі ШІ не будуть зберігати жодних персональних даних
Аргументація Hamburgischen Datenschutzbeauftragten (HmbBfDI) така: Виведення особистих даних із мовних моделей дуже складно. ЄвроГромадський Суд сказав, що відновлення особи лише тоді можна вважати можливим, якщо засоби та витрати для цього знаходяться в звичайному порядку. HmbBfDI каже, що тільки з допомогою добре розробленої, правовідповідної атаки на приватність, можна вивести особисті дані із мовних моделей. Через величезні витрати, які потрібні для цього, згідно рішенню ЄвроГромадського Суду вони не є особистими даними.
Ось простий контрприклад, який легко спростовує HmbBfDI:

Моделі мови зберігають дані всіх осіб однаково. Також особи, які не публічні, зберігаються в моделі мови так само, як і під час її попереднього навчання за допомогою Trainingsdaten. Trainingsdaten складаються з багатьох мільярдів документів. Невірогідно, що там будуть тільки Ангела Меркель або інші повністю публічні особи, яким здається менше права на приватність ніж середньому громадянину.
Є навіть можливість викликати повні цитати з мовного моделю. Цей попередній матеріал демонструє також те, що в LLMs дуже добре можуть міститися дані щодо осіб. У протилежність уявленням HmbBfDI всі великі моделі КІ є частиною системи КІ. Це означає: Система КІ може інтерпретувати числа, з яких складається модель КІ, і перетворювати їх на текст. Єдиний випадок, коли модель КІ лежить безпосередньо на жорсткому диску, без здатності до інтерпретації, не існує в реальності. Такий випадок існує лише теоретично навіть у відкритому джерелі мовних моделей, але навіть тоді досить легко завантажити дуже розповсюджену бібліотеку програмування, щоб інтерпретувати вміст моделю. Нажаль, HmbBfDI створив технічну відмінність між ChatGPT і GPT-4o, якої немає насправді.
Сама по собі вона не має значення:
- Якщо використовується LLM, то часто йдеться про персональні дані. Якщо вони потрапляють в обіг, особа, яка це робить, несе відповідальність.
- Якщо LLM не використовується, зазвичай не має значення, які дані він містить. Ніхто їх не бачить.
- Тож це не в першу чергу про зберігання.
Не може бути такого поняття, як загальний штучний інтелект
Цей тип інтелекту називають також AGI. AGI означає Artificial General Intelligence. Ми тільки починаємо. Відкрито, що розумні роботи, які ходять у світській історії, ще не часто спостерігаються.
Істина така: небагато підприємств вже тисячі мільярдів доларів вкладають у будівництво розумних роботів. Для цього потрібно:
- Робот (вже є, стає все кращим і кращим).
- Електронний мозок (вже є, стає все кращим і кращим).
- Хтось, хто ставить мозкову коробку (комп'ютер зі штучним інтелектом) на робота (цей хтось вже є).
Ці три компоненти вже існують. Самовчачучи системи вже наявні, наприклад, ChatGPT або NuminaMath (дивіться нижче). З часом роботи навчаться краще керувати нашим світом, ніж ми зможемо зробити це самі.
Лише через багато років ШІ стане всемогутнім
Хибність цього припущення не може бути доведена, як і твердження в попередньому розділі про AGI. Час покаже.
Правильно це: Розвиток КІ здійснюється з надсвітловою швидкістю. Що було недоступним ще два тижні, тепер вже є можливим. Це стосується особливо прогресу відкритих джерел мовних моделей. Названий вище AIMO був отриманий від відкритого джерела моделі під назвою NuminaMath. Вона відповіла правильно на 29 із 50 складчих математичних завдань, які були представлені у текстовій формі.
Гугл стверджує зокрема, що досягнення в галузі робототехніки було здійснено за допомогою мовного моделю.
Прогноз Dr. DSGVO: Через 10-15 років ми матимемо роботів, які становитимуть серйозну загрозу для людства. Це може статися і через 5 років (щоб знати напевно, потрібно бути експертом з робототехніки). Але точно не мине й 35 років, перш ніж нам доведеться серйозно турбуватися про своє існування через перевагу штучного інтелекту. Якщо у вас є діти, ця стаття пророкує, що вони сформують кінець свого життя зовсім не так, як це буде добре для них.
Підсумок
Ось найважливіші твердження у правильній формі:
- ChatGPT – це інтелектуальна система, яка значно перевершує людину у виконанні багатьох завдань.
- Інтелект не залежить від людей.
- Штучний інтелект – це інтелект на штучній системі. Ви можете самі визначити, що є штучним (це не має значення).
- Використовування мовних моделей не коштує нічого. Це стосується Offline-AI, тобто власне керованих мовних моделей.
- Вивчення моделей штучного інтелекту не коштує нічого. Це стосується навчання на своїй техніці або орендованій техніці. Ця техніка вже включена в роботу. Чи відбувається навчання штучного інтелекту на ній чи ні, для витрат на техніку це одне й те ж.
- КИ не є алгоритмом, а скоріше не зовсім зрозумілою можливістю вирішення багатьох проблем.
- Microsoft Copilot – марна система. У будь-якому разі, це справедливо навіть для найпростіших стандартних завдань, з якими будь-який офлайн ШІ впорається краще.
- Хмара Azure не є безпечною. Про це свідчать численні інциденти, в яких Microsoft не особливо відзначилася.
- ШІ стане загрозою для людства вже за кілька років. Або, як сказав Сем Альтманн з OpenAI: "ШІ вб'є нас усіх. Але до того часу він буде неймовірно корисним"."
Якщо ви хочете ввести в своє підприємство свою AІ (офлайн-AІ), таке важливо знати:
- Офлайн ШІ можна оптимізувати. У багатьох випадках він дає кращі результати, ніж ChatGPT. Це також пов'язано з тим, що ваша система працює тільки для вас і не повинна працювати для мільйонів інших користувачів.
- Автономний штучний інтелект забезпечує повний контроль над даними. Кожен DPO радий мати автономний штучний інтелект.
- Офлайн ШІ коштує недорого, якщо придбати сервер ШІ або орендувати його в німецькому дата-центрі у німецького провайдера.
- Офлайн ШІ може отримувати дані з Інтернету або спілкуватися з іншими ІТ-системами.
Які у вас є питання чи ідеї?



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
