Як працює штучна інтелект (ШІ) і чому він тепер революційний та світовий? Які законодавчі умови для обробки масових даних для навчання електронного мозку? І як щодо зберігання вхідних даних користувачів та виведення зображень та текстів? Вибірка зі свого лекційного матеріалу.
Вступ
Верба, яка мало розуміє про КІ, часто використовує термін ChatGPT, щоб здаватися цікавою. Багато хто вважає, що ChatGPT є suchmaschine. Сюрприз: це повна брехня. ChatGPT має дуже старий базу даних за сучасними мірками. Це цілковита мета і бажання. Тому саме тому ChatGPT працює як відповідальна машина, а не для знаходження актуальної інформації.
Хтось, хто краще розуміє КІ та мав на увазі Акціонний ринок, купував акції Nvidia за певний час і вже з тих пір спостерігав величезне зростання цін. Для цього підприємство виробляє графічні карти, які вважаються справжніми лідерами у сфері застосування КІ.
Я кажу про майбутній крах акціонерного ринку в його сучасному вигляді, бо вже скоро кожен зможе передбачити зміни курсів акцій з більш ніж 50% вірогідністю.
Моя теорія разом із припущенням, що мені це скоро вдасться.
Що саме тут відбувається? Усього дуже просто:Графічна карта* типу Nvidia Geforce RTX 3070 має в своїй GPU 5888 ядер. GPU — це процесор графічної карти. На відміну від цього, класичний процесор комп'ютера називається CPU. Досить сучасні процесори Intel мають 10 або трохи більше ядер.
Інтелевський ядро – це математично щось подібне до Альберта Ейнштейна (якого фізик дуже добре оцінював). НВІДія GPU-ядро – це досить середній математик. Алгоритми штучної інтелекту випадково ґрунтуються на розрахункових операціях, які особливо добре виконуються на процесорах графічних карт (GPU). Під час виконання операції множення ядро Альберта Ейнштейна легко виконує цю операцію і майже весь час занудується, тоді як математик GPU дуже виснажений, але майже такий же швидко виконує цю просту розрахункову операцію.
5888 паралельні працюючі середньомірядині математики потребують набагато менше часу для виконання, скажімо, 100 тисяч простих множень, ніж 10 лютих Ейнштейнів. Під час того, як комп'ютер із графічною картиною вже давно виконав розрахунок К, вважалося, що комп'ютер на основі тільки Intel зупинився. Враховуючи збільшення продуктивності картки у 50 або більше разів, вона використовується лише для виконання розрахунків. Про це можна судити за луною швидкістю її вентилятора, який здатний перевершити будь-який комп'ютерний вентилятор.
Під час того, як в Віларібі ще йшла процесорна система і тільки на двадцять відсотків була розпакована продукція, у Вілабаджі вже все блищить.
Бажаємо вибачення за такий дурний порівняльний аналіз цих двох фантастичних сіл, які відомі з реклами і про які більше відомо, ніж про сучасні алгоритми штучного інтелекту.
Графічна карта вже робить дуже суттєву різницю при алгоритмах, які для більш складних завдань вже з радістю можуть 10 днів поспіль тренуватися, або які для створення зображення потребують 10 секунд на GPU, але на звичайній – га- CPU потрібно 8 хвилин. Власне, ви вже добре знаєте про DALL-E чи Midjourney і розумієте, що не маєте чекати 10 хвилин на одне зображення.
Функціонування сучасної штучної інтелекту
Системи штучної інтелекту, такі як ChatGPT, ґрунтуються на штучних нейронних мережах. Нейронна мережа також знаходиться у людському мозку чи головному мозку. Вона працює приблизно так:

Видно, як люди обробляють інформацію та як виникає інтелект. Насамкінець майже стільки ж розуміємо про це, скільки бачимо на зображенні. Я стверджую, що нічого не знаємо щодо цього, а лише дивуємось, чому нейрони зі своїми зв'язками здатні створити щось подібне до інтелекту. Сюрприз: ніщо не має стосунку до Бога, як я показуватиму далі.
У попередньому зображенні ліворуч бачимо ряд зовнішніх впливів, тобто сигналів. Це можуть бути звуки, тони, статичні зображення, рухомі зображення, запахи, повітряні течії тощо. Ведмедиці добре знають також ультразвук. У центрі знаходиться наше мозок, який приймає і обробляє всі ці сигнали. Праворуч бачимо нейронну мережу, де сигнали обробляються та зберігаються.
Нейрон порівнянний із простим процесорним ядром. Між нейронами існують зв'язки, а саме дуже багато. Вони є мільярдами. Чи нейрон спалахне, тобто буде активований, визначається шляхом дії потенціалу дії, який створюється іншими пов'язаними нейронами до цілого нейрону.
Тепер ми переходимо до технічної реалізації сучасних алгоритмів КІ.

У зображенні ви бачите те саме, що й вище у людини.
У центрі бачите електронний мозок, вище був людський.
У правій частині зображення ви бачите нейронну мережу в цифровому вигляді, яка у людини біологічна і тому більш аналогова.
Так далі, така рівність. Але ще більше рівності очікується. Електронні мозки перетворюють за допомогою підходу Transformer (відомий з 2017 року) усі сигнали на рядки чисел, векторів називають. Так само робить людський мозок. Відповідно, це одне й те саме. Що стосується різниці між загальною імплементацією біології та електроніки, то вона майже не має значення і лише забезпечує певну підвищення продуктивності біології порівняно з електронікою. Вам, звичайно, відоме Моорське правило: кожні 12-24 місяці швидкість обчислень процесора подвоюється, часто при зниженні вартості. Отже, переможцем у цьому відношенні є машина, і саме зараз (приблизно 2023 рік).
Ці вектори, тобто рядки чисел, які представляють зображення, тексти або відео тощо, тепер можна порівнювати між собою. Тепер можна порівнювати тексти з текстами, зображення зі зображеннями, відео зі відео, тексти зі зображеннями, зображення зі відео, тексти та аудіосигнали зі зображенням або відео тощо. Тепер ви знаєте, як працюють генератори зображень, такі як Dall-E чи Midjourney. Тепер ви знаєте, що цим можна найбільш швидко і найпростіше раніше ексклюзивні застосування, такі як SoundHound, які можуть ідентифікувати музичні композиції протягом декількох секунд та програмувати їх далі.
Я вже показав, що можна швидко і просто написати чудові програми:
- Аудіотранскрипція моїх подкастів: Аудіо до тексту, у незабаром добрій якості. Для 30 хвилин мови автоматично виникає транскрибоване за допомогою AI-генероване, яке я можливо ще треба буде коригувати вручну протягом п'яти слів. Словесні частини та невідомі слова, такі як „все tutti“, „Hömmele“ (так воно називається!) або „Megafail Microsoft, який мав інструмент AI Twitter“ будуть легко розпізнавані.
- Видовиробництво зображення та аудіо-вхід: Мій двовимірний світлий фотографій у дуже поганому якості плюс голос американського президента як єдиний вхід, створює мої тривимірні анімований голови і моїх рота, що рухаються синхронно зі своїм голосом як відео-анімація.
- Білогенератор: відомий з інших застосунків. Але це робить різницю, якщо фахівець знає, чи розрахувати щось у хмарі Microsoft, Dall-E або щось інше, чи на локальному системі. Різниці такі: Локально я нічого не платжу. У хмарі я можу за помилковим програмуванням протягом місяця випадково знищити 100 тисяч євро (приклад: ненавмисний нескінченний рекурсивний виклик). Локально у мене повна контроль над усіма даними. При Microsoft і Google допомогти нічого не допомагає, а найкраще – наркотичний засіб або чистий алкоголь, щоб забути всі проблеми з даними монстрами на короткий час або зовсім звільнити голову від розуму.
- Об'єктна розпізнавання: Які об'єкти на зображенні можна розпізнати? Які контури кожного окремого об'єкта? Що називається цей об'єкт? Як би було зі словами: «Маркуйте всі чашки на зображені» або «Шукайте мені усі зображення, де дві чи більше людей дискутують у приміщенні та сидять на стілухах» або «Замінюйте обличчя на зображенні обличчям Нормана Рідуса, мене свого подібного, кажуть багато…).
- Семантична пошук: Замість пошуку за ключовими словами чи криптичних SQL-команд, тепер шукаєш за природними мовчаними реченнями або порівнюєш цілий документи між собою.
Я вже кілька тисяч фотографій на своєму комп'ютері обробляв. А ось результат у вигляді мозаїки (кожне камінчикове камінчикові виступає справжнім зображенням розміром 512х512 пікселів):

Різні зображення мозаїки виникли в результаті розрахунків КІ. Зображення двох відомих мені митців змішувалися. Варіативність тут ще не ідеальна, оскільки це перші спроби. Вже наступного дня я зрозумів, що можна зробити краще. Що на ринку КІ є піввічністю, для деяких органів захисту даних є одиницею часу, якої вони не знають (Що таке день? Для деяких органів захисту даних відомі лише часові поняття «рік», «двадцять років» та «ніколи»)?
Місцеві системи як рішення
Як вже було показано, багато складних розрахунків можна виконувати на власному комп'ютері. Будь ласка, не знову бігайте до Microsoft, AWS чи Google лише тому, що знову хто-небудь грає у Бінго зі штучністю та використовує іноземні слова та торговельні марки, щоб приховати своє невігластво.
Хтось, хто зараз ще для кожного невеличкого проблемки замовляє Хмарний сервіс, є бідним виродком і має ще менше уявлення про КІ ніж про захист даних та інтернет-аплікації. Для цього не потрібно знати все. Недобрі радники ж погані.
КІ не підходить для точних заяв. Вона така надійна, як людина із надзвичайно високим інтелектом.
Найбільші проблеми такі складні, що вони не можуть працювати на звичайній апаратній базі. Наприклад, версія ChatGPT 4. Цей систем немає навіть як відкритого джерела, тому ніхто не зможе спробувати зробити все правильно.
Невелика частина людей розумні досить і не кидає свої Громадські таємниці в чат-бот Microsoft або Google. З люди, які роблять це, мені особисто нічого робити не хочеться.
Як особливий приклад великої обчислювальної роботи називається БлумбергГПТ. Це Large Language Model (LLM) фінансового мовлення Bloomberg. Він такий потужний, що потребував 1,3 мільйона розрахункових годин, щоб модель була повністю оброблена. Модель — це електронний мозок.
Блоумберг-Головний був вже після 148 років розрахункової часу готовий лише тому, що використовувались 512 високопродуктивні відеокарти зі швидкістю зберігання відеокарти по 40 ГБ (НІ: основний комп'ютерний обсяг пам'яті). Кожна з цих 512 відеокарт коштує близько 14 тисяч євро. Хто хоче збільшити обсяг RAM свого ПК з 16 на 32 ГБ, заплатить за це зі своєї кишини. Хто хоче збільшити обсяг відеопам'яті однієї відеокарти з 8 на 16 ГБ, заплатить чималий кошторис (легко перебільшено).
Юридичні міркування
Я обмежуюся лише деякими головними пунктами, яких я взяв із розгорнутого пояснення юриста Йонаса Брейера. Немає випадковості в тому, що його прізвище може бути відоме вам (прізвище: «Адреси IP є особистими даними»). ([1])
Авторське право
Худоба і добробут одночасно для нас усіх, коли мова йде про КІ. Є ризика, що Європа залишиться чемпіонкою у регулюванні. Тоді в Європі майже ніде підприємство з використанням КІ зможе бути успішним. Замість цього ми тоді купуватимемо у американців, які роблять те, чого вони хочуть, але не притягуються до відповідальності (не можуть).

Основна припущення: Що я як людина можу і не можу робити, таке саме право має КІ.
Від малювання з голови подібне людині та КІ. Коли результат дуже схожий на захищене авторським правом творіння, воно не дозволене. Всі твори мають мінімальну рівень створення. Це майже всі фотографії чи зображення, де видно щось більше ніж квадрат або коло.
Зауважте, що згідно з § 44б Уголовного кодексу Німеччини, дозволено зберігати роботи інших протягом короткого часу для аналізу за допомогою шаблонів. Просто це робить КІ звичайно.
Справа про ЛАЙОН
У цьому випадку мова йде про німецький клуб LAION, який був звинувачений німецьким фотографом. Клуб LAION зібрав понад 5 мільярдів зображень у навчальному наборі для застосувань AI-обробки зображень та зробив його публічним. Набір містить лише посилання на публічно доступні оригінальні зображення.
Дані набору LAION 5B дуже популярні у світі та є основою для кожного другого генератора зображень, який щось вартий.
Моя власна спостереження після вивчення багатьох алгоритмів Stable Diffusion.
ЛАЙОН завантажував ці зображення раніше, щоб розрахувати електронний мозок. Після цього ЛАЙОН за власною інформацією видалив зображення. З допомогою мозку можна розрахувати зображення подібне до попереднього або таке саме, як нижче.

Фотограф знайшов свої знімки в базі даних LAIOn. Як вже було сказано, лише посилання на них, а не самі фотографії. Фотограф попросив LAION видалити його матеріал із навчальних даних. Що саме він має на увазі, мені ще не вдалося встановити. Можливо, йому потрібна видалення висновків зі своїх знімків із електронного мозку.
Відповідь тексту: Тут дані LAION бази даних з схемою та оригінальними відомостями (вибірка):

Тепер питання, чи LAION повинен видалити пізніше знайдені висновки з короткозбережених та аналізованих фотографій чи ні. LAION вважає, що ні, і відповіла фотографу на його вимогу про видалення, направивши йому рахунок адвоката зі штрафом у розмірі близько 850 євро.
Право на захист особистих даних
Персональні дані підлягають захисту згідно з ДЗПВ. Аплікації AI завжди вимагають автоматизованого оброблення даних. Тому вони завжди підлягають регулюванням згідно з ДЗПВ, коли в грі присутні персональні дані.
Персональні дані можуть бути не тільки текстами, але й зображеннями. Я вважаю, що публічні відомості мають лише мінімальний або ніякий суттєвий захист особистих даних. Фальшиві заяви, які створюються за допомогою КІ, мають справу саме ні з чим із цим захистом даних. Також авторське право є чимось іншим, ніж захист даних.
Також вважаю захист даних як підлеглий проблем, коли мова йде про застосування штучного інтелекту. Він має дуже добре підстави бути, але не зупиняє розвиток, а захищає. Інакше я бачу це більше в правах авторського або торговельного знака.
Інші законодавчі акти
Право на товарну марку захищає явно (§ 3 МаркенГ) та неявно захищені бренди (§ 4 Nr. 2 МаркенГ тощо.).
Є також слова та візуальні знаки, а також смакові, звукові, форми та, вірогідно, ще декілька інших.
Патенти, дизайни і деякі візуальні рішення теж захищені. навіть форма пляшки може бути захищена.
Датський акт поки тільки знаходиться у проекті комісії. Він зобов'язує більші компанії видавати дані, коли хто-небудь про них запитає. Це звучить дивно і є саме такою річчю.
Також існує комісійний проект Повітряно-крапельна інструкція. У питаннях стоїть, чи повинна бути зміна доказової ваги, якщо людина використовує роботу, згенеровану комп'ютером. Був цей твір створений відповідно до законодавства? Для підтвердження цього потрібно, наприклад, при допомозі генератора зображень зберегти стан системи AI як резервну копію, щоб пізніше забезпечити безпеку доказів. Це заважає розвитку AI та не дозволяє їй існувати.
Регулювання захищає великі підприємства, яким можна собі дозволити послуги юристів та персоналу для проведення широкомасштабних процесів. Малі підприємства таким чином пригнічуються.
Більше ніж регулювання, яке я вважаю фактично неможливим, мені подобається відлягання та покарання. Два слова, яких не знають комісії із захисту даних, як у Гессені (і деяких судів з цієї області), зовсім ні. де менше автомобілів неправильно паркують? Там, де навіть на вулицях розпусти паркування з 800 євро карается (але ніколи жодного квитка не отримує) або там, де кожного п'ятого порушника записують?
Рекомендації
Користуйтеся місцевими системами штучного інтелекту. Світ може бути таким просто. Більше ніяких проблем з Google та Microsoft. Що було ще з Privacy Shield? Є його ще? Ні, немає вже. США вийшли.
Використовуйте ChatBots не для порівняння з Серверами пошуку. Проте, за допомогою семантичної пошукові, без використання ChatGPT, кожне документ або зображення можна краще знайти ніж раніше. Без OpenAI чи Microsoft.
Контролюйте Дані для тренувань: тільки власні або спеціально вибрані дані вільні від правових проблем. Складно, оскільки КІ ґрунтується на масових даних. Щастливо, є виходи. Найкраще використовувати (звичайно) лише публічно доступні дані, якщо вже не свої.
Нутрішні дані користувача не повинні зберігатися без особливих підстав. Вони можуть містити особисту інформацію. При зберіганні підстави повинна бути дуже обережно вибрана та легітимована. У підсумку, ChatGPT тимчасово заборонили в Італії.
Витрат, які створює КІ, залежно від форми різними є підходи до обробки. Текстові витрати не є науковими публікаціями. Дивіться випадок нью-йоркського адвоката, який отримав 12 рішень від ChatGPT, яких ніколи не існувало. Глупо, коли потім ці результати подаються до суду і робиться спроба зробити їх правдою.
Виступ, який стосується цього питання, відбувся на конгресі з захисту даних у Deutsche Flugsicherung наприкінці травня 2023 року.




My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
