Кожен говорить про штучну інтелект, проте ніхто не знає, що саме цим називається. Перший факт. Італійська комісія з захисту даних заборонила використання ChatGPT, але пошукові системи, такі як Google, можуть продовжувати працювати. Що таке штучна інтелект нашої епохи і яким чином це пов'язано із захистом даних?
У загальному
Об'єднаний підсумок:
Кібернетична інтелект (КИ) та захист даних — дві теми, які останні роки отримують все більшу увагу. КІ-системи, такі як ChatGPT, ґрунтуються на відкритих джерелах даних і використовують подібні підходи до пошуку інформації у інтернеті. Отже, проблема захисту даних при застосуванні КІ не обов'язково більша ніж при застосуванні пошукових систем. Однак КІ-системи можуть спричиняти проблеми щодо авторських прав, якщо вони відтворюють чужий вміст в іншій формі.
Відповіді на запитання:
Що таке штучна інтелект нашої епохи?
Відповідь: Кібернетична інтелект сучасності відноситься до сучасних систем КІ, таких як ChatGPT або інші великі мовні моделі (LLMs), які ґрунтуються на високоякісному масовому даних та геніальних математичних моделях для симуляції людської розумності.
Що має до цього стосунок штучна інтелект та захист даних?
Відповідь: Кіберінтелект може викликати головним чином проблеми захисту даних тоді, коли він звертається до не публічних особистих даних.
Що є різниця між штучним інтелектом та пошуковими системами щодо захисту даних особистості?
Відповідь: Кіберінтелект та пошукові системи збирають обидві дані із публічних джерел, але системи AI можуть зміст вмісту в іншій формі відтворити і можливо спричинити проблеми щодо авторських прав, тоді як пошуковці у загальному випадку лише короткі фрагменти показують.
Що є головними проблемами щодо штучної інтеллекту?
Відповідь: Основні проблеми щодо штучної інтеллекту є проблеми авторського права, здатність КІ заміняти людину та можливі проблеми захисту даних.
Важливі ключові слова:
Кібернетична інтелект, ChatGPT, LLMs, Великі мовні моделі, Дані Common Crawl, Вікіпедія, Онлайн тексти, Вектори, Базові знання, Математичне моделювання, Послідовності чисел, Облаковий обчислення, Python, Pytorch, TensorFlow
Пodcast до статті:
Вступ
Забагато років вже термін штучної інтелекту використовується надмірно та нечітко. Тепер, у 2023 році, за моїм відчуттям відбулося повне захоплення. З погляду інформатика мені вдалося розшифрувати основний принцип людської інтелігенції. Друге – мені вдалося продемонстровано, що це здійснено.
Чоловіче мозок є автоматом, який працює на біологічній основі. Наш мозок ґрунтується на випадкових процесах (контрольованому випадку). Це також основне принцип фізики квантів, яка визначає нашу повсякденну життя. Аналоговий (автоматичний, стохастичний, випадковий) підхід подібний до електронних систем штучного інтелекту.
Сумішченно, Тест Тюринга за моїм поглядом був виконаний першим комп'ютерним програмою. Що Джозеф Вайценбойм зробив своїм віртуальним психіатром Елізою тоді «лише» досягнув того, чим він тепер здійснює, у квітні 2023 року, через потужну симуляцію людського мозку. Мені було почесним мати можливість особисто зустріти господина Вайценбойма тоді (це був, вірогідно, близько 2000 року), коли я відвідував моїй університетській Технічній університет у Ільменау. Також я гордий на тому, що Технічний університет в Ільменау був серед найкращих університетів Європи та був включений до рейтингу наступним чином: Кембридж, Оксфорд, Цюрих, Ейндговен, Лондон, Ільменау. Хто не знає Ільменау?
Що таке штучна інтелект?
Я не можу повністю відповісти на питання про те, чим є штучна інтелект. Проте я можу розповісти багато чого щодо сучасних систем, таких як ChatGPT або загалом щодо LLMs (Large Language Models).
Сучасні системи, які справді викликають захоплення, ґрунтуються в основному на двох підходах:
- Базові дані: масштабні дані високої якості
- Вищий математичний модел: Центр мислення та розуміння мозку
Визначна база знань від ChatGPT ґрунтується зокрема на наступних публічних джерелах :
- Звичайні дані Crawlers (CC та CC4): Велика вибірка інтернету (частково випадкова). Кожен може завантажити.
- Вікіпедія: Відкритий доступ вже давно надається вільно. Кожен може завантажити.
- Різноманітні цифрові книги, що передусім існують: кожен може завантажити їх.
- Онлайн текст: публічний, доступний шляхом скрейнінгу або через дамп.
Як бачити, це не секретна інформація, а саме те, що пошукові системи, такі як Google, фактично і абсорбують. Google навіть ще багато інших джерел досліджує, наприклад, PDF-документи, соціальні мережі та ще багато вебсторінок.
Більшість даних, які використовуються для застосунків з штучним інтелектом, як ChatGPT, є публічними або не мають особистих даних.
Захист даних не головна проблема при розмові про КІ. Це здатність КІ заміняти людину. Перед цим ще й авторське право.
Тепер це буде цікаво. Математичне моделювання, яке лежить в основі сучасних ефективних систем штучного інтелекту, працює приблизно так:
- Перекиньте базу знань у рядки чисел (вектори).
- Залежно від проблеми, яку треба вирішити: перетвори на рядки з чисел також введену інформацію (питання, текст для перекладу тощо).
- Ведіть пошуку подібності між цими двома вказаними векторами. Найближчі дані пари будуть найвірогіднішим результатом.
Цей метод можна застосувати до всіх можливих видів даних, зокрема:
- ЧатГПТ, LLaMa тощо, зокрема текстовий доповнювач, відповіді на запитання, переклад, пошук подібних, підсумовування тексту (екстрактивне та абстрактне: вибрані оригінальні пропозиції проти змістової передачі у нових словах…)
- Photos: Dall-E, Midjourney etc.
- Аудіозаписи: Wav2Vec, GANSynth. Хто знає приклади?
- Відео: тут
- Всі інші сигнали, незалежно від того, чи вони є неперервними (аналоговими) або окремими (цифровими), головне те, щоб їх можна було перетворити на дисретні значення та вектори
Мистецтво полягало (!) у векторизації даних введення. Цей проблем вже задовільно вирішено. Ми всі, особливо інформатиків та інших технічних фахівців, тепер можемо використовувати ці можливості. Іншим слід використовувати підготовлені системи. Ким володіє глибші знаннях програмування та сучасної техніки, той може створювати такі системи самостійно, розширювати їх і глибоко змінювати.
Я спробував це вчора і написав програму, яка відповідає на питання. Для цього використовується відкрита база даних знань, також відомий як Дані набір. Як мова програмування я вибрав Python. Як основні фреймворки для інтелектуальної діяльності називаються Пайторч і TensorFlow. Поки ці фреймворки є ресурсо-жадібними, не шкодить знати щось про Облакові обчислення. Як добре, що існують облакові рішення з захисту даних, які походять із Німеччини.
Навичка ChatGPT – це загальний підхід. Система не лише виконує завдання дуже добре, але й кілька інших одночасно. Це називається також АГІ. AGI означає Artificial General Intelligence, тоді як AI вже раніше було для Artificial Intelligence і в німецькій мові позначалося як AI.
Ви багато систем штучного інтелекту вже могли б виконувати складні завдання краще за ChatGPT, але їх здатність була обмежена лише одним досить добре визначеним напрямком проблеми. ChatGPT вельми різноманітно застосовується. Наприклад, з допомогою DEEPL (німська компанія із Кельна!) вже можна було перекладати тексти дуже добре. З допомогою ChatGPT ніщо подібне не відбувається, а ще багато чого іншого, про що DEEPL навіть не має уявлення.
Забезпечуючи, щоб Завантажувальні алгоритми штучного інтелекту працювали швидше, часто використовують graphics cards для обчислень. У порівнянні з звичайними процесорами (CPUs) графічні карти мають GPUs (графічні процесори). Забезпечуючи випадково, GPU можуть виконувати операції обчислень AI-аплікацій значно ефективніше, ніж CPU.
Дія найпопулярнішої інтерфейсної платформи для GPU є за моїми знаннями CUDA, який належить компанії NVidia, відомому виробнику графічних карт. CUDA означає Compute Unified Device Architecture. Також існує IPUs від компанії Graphcore. IPU означає Intelligence Processing Unit, тоді як CPU означає Central Processing Unit і GPU означає Graphics Processing Unit. Від Google є щось позитивне, а саме TPUs (Tensor Processing Units). TPUs використовуються переважно в Google Cloud, тому вони часто не дуже цікаві для розробника, який ставить на перше місце захист даних.
Вмістовість таких відеокарт КІ визначається, зокрема, кількістю їх CUDA-ядер. Відеокарти з сегменту споживчого ринку мають, наприклад, 5888 подібних ядер (Nvidia GeForce RTX 3070) і навіть доступні для приватних осіб.
Якщо ви вважаєте, що зможете збігатися зі мною, тут кілька додаткових термінів, яких слід знати: Модель, Читач, Вивідник, Індекс, Кодувальник/Декодувальник, Трансформер, Пайплайн, Політика, Dataframe. Це лише невеликий відтинок важливих термінів, які необхідні для більш детального розуміння сучасних систем штучного інтелекту. Хто бажає краще зрозуміти системи GPT, повинен вже знати щось про (повторюваних) нейронних мережах, моделях Маркова та концепціях як LSTM і NLP.
Застосування подібності за допомогою дискретних векторів дуже велике. Всі вони ґрунтуються на одному (але не тому) основному принципі:
- Системи запитань-відповідей. Приклад із моїєї локальної установки, яка використовує дуже обмежену базу знань: „За що був відомий попередній американський президент Джон Ф. Кеннеді? За програми Аполло (за тиждень після смерті Кеннеді, президент Джонсон видав указ про перейменування космічних установок з мису Канаверал і програми Аполло на ім'я Кеннеді)
- Переклад тексту з однієї мови в іншу мову.
- Який зображення найкраще підходить до даного промту?
- Створення зображення із текстового вікна.
- Створення підсумкової версії тексту.
- Складання музичного твору, який має ті ж особливості, що й інші роботи композитора.
Вірність пошукові забезпечує те, що з комп'ютерними системами із «простими засобами» можна вивчити внутрішню структуру німецької мови. Вов! Розкажіть людині, що таке «внутрішня структура», не кажучи вже про те, як її вивчати, без того, щоб протягом багатьох років вивчати мову в реальному житті.
Надзвичайно charmanter Zug moderner AI-Systeme, які базуються на LLMs: Виховані моделі можуть бути підготовлені для конкретних завдань шляхом Fine-Tuning. Отже, також використовується скорочення GPT (Generative Pre-trained Transformer). Система була навчена лише один раз і може швидко розширити свої можливості щодо певної роботи. Так само відбувається з людиною, яка вже навчила себе вивчати.
Для цього треба знати, що тренування мовного моделю вельми обчислювально інтенсивне. На звичайному ПК це триває кілька тижнів, якщо є потрібні дані. Хіба що кілька тижнів, треба сказати. Раніше потрібно було спеціальний суперкомп'ютер для цього.
Можна вийти і взяти мовне моделі як початкову базу, яка була навчена іншою людиною з великими трудами. Цій мовній моделі потім навчають власних спеціалізованих даних. У кінцевому підсумку виходять КІ-системи, які володіють можливостями потужної мови плюс знання про власну проблему. Файн-тінінг потужного моделювання відбувається дуже швидко. Важливо мати добрий набір початкових даних, який повинен бути підготовлений машинно. З допомогою потрібних технічних інструментів можна створити робочу станцію для ефективної вирішення всіх можливих проблем знань. І саме з допомогою локально встановленої КІ-системи, яка не потребує інтернет-зв'язку та не спричиняє витрат на третіх осіб.
Ви багато хто кажуть, що ChatGPT та інші подібні системи працюють лише стохастично: Так само працює й наше мозок. Наше мозок теж є тільки автоматом, нічого більше. Але дуже ефективним автоматом. Градус випадковості в нашому мозку ми не можемо регулювати самостійно (найбільше шляхом приймання алкоголю чи інших наркотиків). У системах КІ випадковість можна регулювати шляхом вказування так званої температури. Higher температура створює більш креативні відповіді. Температура біля точки замерзання, навпаки, забезпечує детерміністичний автомат, який завжди дає ті самі відповіді на ті ж запитання.
З джерела Лексикону Нейронауки: Стохастичні процеси знаходять численні застосування при описі окремих Нейронів (стохастичні коливання потенціалу мембрани, стохастичні наслідки акціонного потенціалу) або системи Нейронів (групові рівняння для нейронних мереж із стохастичною активністю) Чоловіче мозок складається з цих ж саме складових частин і ґрунтується на цих принципах.
Джерело: Spektrum der Wissenschaft, жирний шрифт від мене, такий же останній рядок.
Примітка, оскільки один з читачів звернувся до мене щодо цього статті: Він обіцяв мені повідомити чому мої розуміння інтелекту є критичним. Я дуже зацікавлений його відгуком і ввійду його в цей матеріал, як тільки він буде доступний.
Що має стосунок до захисту даних штучний інтелект?
Локальні системи штучного інтелекту, як і той, який тільки що описувався, зберігають свої дані серед третіх осіб не обов'язково. Вони могли б це зробити без виникнення особливих проблем щодо захисту даних. Це стосується випадків коли дані отримані з публічних джерел, які вільно доступні.
Хто публічно повідомляє про себе на Facebook, втрачає своє право на захист даних щодо цих даних.
Якщо захист своїх даних важливий для вас, не повідомляйте про свої настрої, хвороби та плани відпочинку публічно.
Якщо б не було відомих пошукових машин, відповідь на питання щодо проблеми захисту даних у застосунках з КІ була б простіша. Однак пошукові машини в першу чергу нічого іншого роблять, як і системи КІ: вони збирають багато даних. Що стосується ChatGPT, то цей підхід навіть такий же, що й у Google або Bing щодо наявності джерел. ChatGPT збирає саме так само дані зі відкритих джерел.
Де саме різниця повинна бути, мені не зрозуміло.
Такі машини дають добрі, але не дуже розумні відповіді на питання. Питання – це suchbegriff або навіть просто сформульована wissensfrage. Системи КІ теж дають такі ж добрі (або частково краще) відповіді на мовно чи змістовно складні питання.
Квалітивно мова йде про пошукові машини та певні реалізації систем КІ – це системи запит-відповідь. ChatGPT є подібним відповідальним автоматом, як і пошукові машини Google чи Bing. Спосіб обробки даних вже у класичних пошукових машинах можна вважати досить інвазивним. Системи КІ тут не пішли далі, якщо дивитися на математичні моделі, які хоча й дуже інтенсивні за обчислювальними можливостями, але не обов’язково надзвичайно захопливі.
Такий же пункт, отже, є якісно рівний, хоча ChatGPT здаває Тест Тюринга, але ні на яку просту пошукову систему. У згаданому мені статті коротко пояснюється та ілюструється справжнім прикладом тест Тюринга.
Рей Курцвейл був правий, коли вже у 2005 році написав книгу з таким назвою: «Світлини близько».
Книгу я тоді прочитала, але ніякої ідеї, наскільки він був правий.
Отповіді, які надають пошукові машини, у основному складаються з повторення раніше прочитаних вмістів. Аплікації з використанням штучного інтелекту часто знову відображають вміст в іншій формі, як наприклад ChatGPT. Це є різниця. Однак це має справу лише умовно із захистом даних. Може бути дискусія щодо того, чи є фальшиві заяви або галюцинації штучного інтелекту проблемою захисту даних. Я бачу це спочатку ні.
У зв'язку з забороною ChatGPT в Італії комісією із захисту даних згадувався також Ювенальний захист. Наскільки мені відомо, вміст на YouTube, Facebook, Twitter та у пошукових системах Google і Bing доступний для кожного, хто натисне кілька кнопок. Де тут повинен бути ювенальний захист, я цього не бачу.
Якщо штучна інтелект відкриті джерела використовує, я тоді не бачу проблеми з захистом даних. Хіба що це зовсім інша справа ніж для пошукових систем, соціальних мереж чи інших порталів, які відтворюють вміст третіх осіб. Італія, здається, (на підставі витоку даних) встановила, що також зберігаються вхідні дані користувачів ChatGPT. Що я знаю, великі пошукові системи теж роблять це. Це не краще, але підкреслює чому раніше вже слід було діяти проти пошукових систем.
Де саме питання з КІ?
Системи AI можуть спричинити урейберські проблеми. Для того, щоб повторити вміст у формі, що виходить за рамки коротких цитат, є правові проблеми. Це стосується як тексту, так і інших видів засобів масової інформації, наприклад, зображень. Наприклад, тут комп'ютерно згенероване зображення, яке, можливо, не порушує авторські права (хоча ніхто точно цього не знає):

Пошукові машини як правило відображають лише фрагменти (Snippets) результатів пошуку. Це вважається дозволеним. Наприклад, такий фрагмент:

Часом навіть відповіді на сформульовані запитання прямо в пошуковій системі відображаються. Тут починається проблема: коли я вже витрачаю свій час і зусилля, публікуючи безкоштовні статті, тоді мені хочеться, щоб читачі відвідували моїй сторінці. Таким чином, хоча б є можливість того, що вийде щось добре, незалежно від форми цього спілкування.
Але коли пошукова машина прямо демонструє мої вміст, ніхто більше не відвідує мою сторінку. Чому мені тоді треба надавати свої вміст публічно або безкоштовно?
Аналогічно відбувається з алгоритмами та системами штучного інтелекту. Такі системи розуміють іноземні вміст, і передають їх у іншій (синхронній або поєднаній із іншими інформаціями) формі. З іншого боку, я маю щось, хоча б якщо це мої вміст, а розробники штучного інтелекту мені нічого не пропонують (посилання, гроші тощо). Тому ви знайдете статтю на сайті Dr. GDPR, де описується як ChatGPT заважає захоплювати свої власні вміст. ([1])
Результат
Системи типу ChatGPT використовують публічні джерела (хіба що така інформація надається OpenAI публічно). Отже, вони нічого іншого не роблять, ніж пошукові системи. На мою думку, ніде в Європі ще жодна Google-пошукова система не була заборонена, ні в Італії, ні в Німеччині. Німецькі органи захисту даних навіть запитували у OpenAI, звідки беруть дані, на яких працює ChatGPT.
Вище все ж таки може виникнути питання щодо авторських прав, якщо вміст інших осіб буде використаний системами штучного інтелекту. Про це я ще нічого не читав.
Я розумію хвилювання щодо відомої КІ та збереження даних, але з кількох причин не зовсім:
- Дані походять із публічних джерел, які також використовують пошукові системи.
- Є прості заходи, щоб вирішити проблеми захисту даних, якщо вони існують.
Ці малярні я скоро розповім на сайті Dr. GDPR. Мій підхід ґрунтується на технічному розумінні роботи КІ-систем, поєднаному зі мною знанням про захист даних. Одному клієнтові вже зміг допомогти уникнути правових проблем із його КІ-системою. Якщо б обмежувати дані КІ, система більше не була б функціонувала.
Дахер я вважаю Виїзд деяких органів влади (зокрема Італії) складним. Системи КІ повинні бути регульовані, щоб людство ще трохи довше існувало. Однак ця регулювання перш за все нічого не має спільного з захистом даних, а більше з авторським правом та Потенціалом надмірно потужних систем. Моя прогноз на основі сучасних розвитку така:Біржа акцій* найближчим часом вже такою формою існувати не зможе і не буде. бо за допомогою розумних систем скоро майже кожний зможе передбачити розвиток курсів акцій досить точно, щоб без ризику здійснити спекулятивні операції з акціями.
Перш за все при системах, які не публічні вміст використовують, може виникнути проблема захисту даних. Але знову ж таки при захисті ліцензованих змістів, буде саме авторське право, яка правильна підстава для перевірки. Будь ласка, виправте мене, якщо я помиляюся.
Ви можете собі трохи розігратися, запитуючи у OpenAI, чи дані з вашої вебсторінки наявні в їхньому індексі та вимагати видалення із індексу та всіх моделей КІ (адреса, яку вказано у посиланні, взята зі політики захисту даних компанії OpenAI). ([1])



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
