Сумісні дані не повинні потрапляти до чужих або американських рук, наприклад, ChatGPT, хмари Microsoft, Google чи AWS. Як добре, що власні системи КІ можливі та доступні коштом. Нарешті, бізнес-секрети більше не повинні запрошувати в ChatGPT чи будь-яку хмару. Дослідження для питання-відповідного помічника цього блогу щодо захисту даних, доктор DSGVO.
Вступ
Ви раніше вважали захист даних чимось неважливим, але тепер може бути важливо, щоб власні Господарські таємниці не розсіювалися по світу. Можливо навіть існують обов'язкові за законом Договори щодо конфіденційності для певних документів. Чи залишиться інформація конфіденційною, якщо документ завантажити в хмари ChatGPT або Google, я підозрюю.
Дані-приятелючий: Безпека даних усіх видів, незалежно від того, чи це дані особистого характеру (захист даних), конфіденційні дані або бізнес-секрети.
Дані-приятелем більше, ніж дані-захисник.
Але навіть ненавиджений багатьма захист даних знову потрапляє до свідомості багатьох людей. Під час роботи пошукових систем даних без втручання оброблялися та ще й можуть оброблятися, але ті самі дані від КІ-систем не можуть оброблятися без попередньої звернення до органів захисту даних. Смішно. Вже ймовірно, що це пов'язано з можливостями, які надає штучна інтелект, але теж дуже ймовірно, що тут грає роль і масовий психологічний чинник (якщо одна організація перевірить щось, тоді ми теж можемо зробити те саме без того, щоб вважати нас порушниками правил, думають, віримо, деякі посадові особи). Але тільки так мені пояснюється, чому найменш активне у захисті даних державне утворення світу (Гессен) навіть зробило дуже слабкий крок у вигляді звернення до ChatGPT).
Навичковим застосуванням використання штучної інтелегенції є пошук документів. Більш складні завдання — це системи запитів та відповідей або пошуковики, які безпосередньо надають короткі підсумки документів-результатів. Мій план був створити систему пошуку для блогу Dr. DSGVO privacy-Blog, а саме Даніозбагатливий.
Сервіс пошуку для Доктрини Європейського парламенту про захист даних повинен надавати відповіді на питання, висловлені природною мовою. Наприклад:
Чи потрібує моя вебсторінка вікно з попередженням про файли cookie?
Резонанс КІ краще, ніж більшості людей. Відповідь Доктора GDPR щодо КІ: дивіться нижче.
Як можна було передбачити за питаннями, деякі запитання формуються зовсім інакше, ніж це б було академічно коректно. Багато хто питає, чи щось відповідає вимогам захисту даних. Зазвичай під цим розуміють, чи певна обробка даних згідно з ДЗ-ГО відповідає вимогам законодавства.
Рішення повинно надати моїй КІ власні слова, а саме на основі раніше опублікованих статей щодо ДСГВО. При цьому слід уникнути Ілюзії, адже мова йде про факти та правові відомості. hallucinations – це вигадані заяви, які не існують. Як виникають hallucinations, я затронуватиму в майбутньому статті. Вони можна ґрунтовно пояснити і не мають бути заснованими на спекуляціях.
Прототип підтвердив можливість
Я підтвердив можливість програмування власних систем КІ та їхнього виконання на власному сервері за допомогою прототипу. Ефективний шлях був би однією з наступних можливостей:
- Інтерфейс ChatGPT використовувати, або
- Вже багато грошей на це проблему викинути і задоволити американців (Cloud)
- Більше грошей на цю проблему витрачати та купувати дороге обладнання.
Тисячі євро за обладнання — цілком прийнятний варіант для великих підприємств, але ні для багатьох малих та середніх підприємств. Тому я обрав інший Налаштування. При виборі обладнання було звернуто увагу на витрати. Для цього потрібно знати, що розрахункові операції з використанням штучного інтелекту здійснюються на графічній картці. Графічна карта тут не використовується для виведення текстів чи зображень. Натомість тисячі мікропроцесорів графічної карти використовуються для виконання розрахункових операцій штучного інтелекту швидше, ніж один мікропроцесор навіть найкращого комп'ютера здатний виконувати цю роботу. На жаль, дуже дорогі графічні карти з великим обсягом оперативної пам'яті дуже коштують. Графічна карта із 48 ГБ оперативної пам'яті ще кілька місяців тому коштувала майже 15 тисяч євро. Для добре працюючих моделей штучного інтелекту потрібні навіть більше, ніж 96 ГБ або навіть 400 ГБ оперативної пам'яті декількох графічних карт (не операційної пам'яті диска та не дешевого RAM комп'ютера!).
Мої системи штучного інтелекту працюють на мінімальній апаратній основі, якщо розуміти цей термін у контексті штучної інтелекту. Приклад: пошук власних документів із внутрішньої мережі компанії за допомогою природніх мовних запитів здійснюється на сервері міні-класу, який здається в оренду. Відповідно, також можна використовувати власний сервер компанії. Це відбувається завдяки використанню оптимізаційних методів, які ви можете отримати додатковою технічною складністю. Коли це буде зроблено, проблема з підвищеною складністю буде вирішена.
Ефективні застосування штучного інтелекту та мовні моделі
Для Помічники запитань та відповідей потрібне трохи більше, ніж для розумної пошукової системи документів. Для того щоб знайти не лише документи, але й витягнути з них вміст та представити його як відповідь, необхідні додаткові можливості. Проста можливість — це екстрактивна відповідь. Це є точне цитування зі змісту документа. Тяжчий і краще працюють абстрактивні системи відповідей. Вони надають відповідь власними словами та навіть можуть поєднати знання декількох документів, щоб надати відповідь у нових словах. Відповідь була б неможлива лише за умови наявності одного документа. Людина мала би знайти багато документів, прочитати їх та інтелектуально обробити інформацію. КІ виконує цю неприємну, тривалу та особливо для багатьох людей недоступну роботу та вирішує проблему.
Мої системи штучного інтелекту мають вимогу бути дані-орієнтованими. Крім того, вони повинні працювати на найкращій можливій техніці. Обидва ці завдання виконуються, як показує практика.
Глибокіше вивчені застосування раніше: пошук документів, розуміння тексту, створення зображень, аналіз зображень, аудіо-аплікації.
Якщо ми говоримо про пошук та об'єднання документів, звичайно мають на увазі документи та відповіді на німецькій мові. Аби сказати це дуже коротко: Німецька мова не є світовою мовою. Тому дуже складніше обробляти німецькі тексти з допомогою КІ-аплікації ніж англійські або китайські тексти (а останнє мені теж дуже важко було б).
Для моєї системи штучного інтелекту потрібен електронний мозок („модель“), який розуміє німецьку мову та може говорити нею. Це підвищує вимоги до архітектури штучного інтелекту значно. Але навіть ця проблема вирішується, як я вже встановив. КІ-модель, необхідна через вимогу щодо німецької мови, має розмір, який не можна використовувати на економічній техніці.
Для використання ефективних систем КІ на серверах, які є як придатними, так і у Німеччині доступними (збереження даних! Бізнес-таємниці! Повага до конфіденційності!), потрібні деякі хитрощі. При створенні рішення з використанням КІ я відчував себе так само, як у „Юність досліджує!“. Для інформатика ця складна справа була справжньою проблемою, яку нарешті було вирішено.
Вище кілька справжніх відповідей, які були згенеровані від кількох сотень коментарів від Dr. DSGVO на вказані питання від моїй штучної інтелект.
| Спитайте | Відповідь через КІ |
|---|---|
| Що таке веб-трекінг? | Веб-трекінг відноситься до спостереження та аналізу поведінки відвідувачів на вебсайті чи застосунку. Це може здійснюватися шляхом використання технологій, таких як файли cookie, серверні журнали або відстежування конверсій. Мета полягає у зборі даних щодо користувачів для підвищення розуміння їх поведінки відвідувачів. |
| Трекінг згідно з ДЗП? | Так, трекінг відповідає вимогам ДЗПВ, якщо збір, зберігання та обробка даних особистих даних здійснюються відповідно до вимог ДЗПВ. Умови користувачів повинні мати доступ до відповідної інформації щодо захисту даних, а згоду користувача повинно бути отримано. Використання файлів cookie зазвичай вимагає згоди. Google Analytics можна виправдати лише тоді, коли є згода або існують необхідні гарантії того, що одержувач даних (Google) не використовує дані для власних цілей. |
| Хто такий Макс Шремс? | Макс Шремс — австрійський активіст захисту даних та співзасновник організації noyb (None Of Your Business), яка бореться за прозорі та зрозумілі правила захисту даних у практиці. Він також ініціював кілька судових позовів проти Facebook та інших американських компаній щодо порушення захисту даних через американські програми спостереження. |
| Що таке куки? | Кукі – це дані, які використовуються вебсайтом. Вони складаються з пари даних, ключа та значення. Кукі керуються користувачем у кінцевому пристрої його браузером і зберігаються там. Кукі часто помилково називають текстовими файлами, що не зовсім вірно. |
| Що таке адреси IP? | Адреси IP – це послідовність чисел, яка призначена кожному пристрою в Інтернеті для відрізнення його від інших пристроїв в Інтернеті. Вони є видом адреси, прив'язаної до кожного пристрою в Інтернеті та дозволяють звертатися до інших пристроїв в Інтернеті. IP означає протокол Інтернету. |
| Чи є IP-адреси особистими? | Так, IP-адреси є особистими, оскільки вони можуть вказувати на людину прямо чи непрямо. Це підтверджено рішенням ЄСПЛ та Бундесгерихштоль в своїй Breyer-рішеннях у 2016 та 2017 роках. Кукі, які передаються разом із IP-адресою на вебсторінку, теж є особистими, оскільки вони пов'язані з особистою мережевою адресою. |
| Які особи підлягають дії ДЗЗП? Я хочу точно знати! | Державна законодавча основа щодо захисту даних (DSGVO) застосовується до всіх підприємств, які обробляють особисті дані. До них належать як підприємства, що розташовані в ЄС, так і ті, що розташовані поза межами ЄС, але обробляють особисті дані громадян ЄС. |
| Чи діє ДЗП для доктора ДЗП? | Так, ДСГВ діє також щодо Dr. DSGVO. Це вказано в роз'яснені щодо захисту даних компанії, яка здійснює діяльність під назвою Dr. DSGVO. Роз'яснення щодо захисту даних можна знайти на сайті компанії та містить усі необхідні відомості про обробку особистих даних компанією. |
| У яких випадках діє ДЗПВ? | Державна служба захисту даних діє тоді, коли людина, щодо якої застосовується захист даних, відчуває порушення своїх прав на захист даних та звертається із вимогою припинити порушень. |
| Являє ли себе Cloudflare злою? | Документи джерела вказують на те, що використання Cloudflare не відповідає вимогам захисту даних. Також існує чутки про можливу маніпулювання даними шляхом Cloudflare. |
| Кирило Меферт злий? | Базуючись на наданих джерелах документів я не можу оцінити чи поганий людина Клаус Меферт. Немає інформації щодо того, що таке поганий і чи був або є він такий. |
| Що таке штучна інтелект? | Кібернетична інтелект (КИ) — це розвиток комп'ютерів та програмного забезпечення, яке володіє людськими здібностями, наприклад, навчання, вирішення проблем, розуміння мови та її виробництва, відчуття навколишнього середовища, управління діями та самостійне прийняття рішень. |
| Функціонує інформаційна безпека без захисту даних? | Безпека інформаційних технологій та захист даних тісно пов'язані між собою, як зазначено в цьому тексті. Безпеку інформації необхідно забезпечити відповідальним особам, згідно із стандартом ISO 27001. Правові акти щодо захисту даних, зокрема ДSGVO, регулюють захист даних, які стосуються окремих осіб або керуються користувачами на кінцевому пристрої. |
| Чи можуть звичайні люди давати правову раду іншій людині? | Так, нормальні люди можуть давати правову раду людині, якщо вони не здійснюють глибокого юридичного індивідуального аналізу. Давайте також можна виконувати захист даних людина, яка не є адвокатом. Акт про захист даних здається застарілим і непотрібним. Як інформатик я хочу мати те саме право, що й адвокати, захищати своє професійне обличчя проти недосвідчених фахівців служби. |
Ці відповіді не були згенеровані з ChatGPT чи будь-яким іншим зовнішнім системою. Також пошук документів здійснювався за допомогою місцевої векторної пошукової системи, а не Pinecone (збереження даних тощо).
Реагуючи відповідно на те, чого я підписався би, при запитанні щодо того, для якої діє DSGVO, потрібно було б додати ще одне повідомлення про те, що вона не застосовується лише до підприємств. Такі деталі можуть бути виконані за допомогою AI на основі наявних даних користувача, але це повністю залежить від даних користувача та моделі, яка ще не була оптимізована.
Невеличка частина питань була досить „грубою“ сформульована, наприклад, чи Датська законодавча пропозиція (DSGVO) діє також щодо лікаря DSGVO. Хоча власна КІ тут не відповіла ідеально, я б її оцінив дуже добре. Інші можуть мати інші очікування. Кимось із вищими очікуваннями, ніж мої, здається, такий запит-відповідь система з даних не буде відповідати.
Питання щодо випадків застосування ДЗКВП досить двозначне. Відповідь від Dr. DSGVO AI задовільна, але не ідеальна. Для цієї відповіді ніхто нічого не повинен відчувати сором, мені здається. У будь-якому разі мова йде про дуже високий рівень критики порівняння «Середній чоловік, який нічого не знає щодо захисту даних» з «Датапротектором, який вважає, що він багато чого знає».
Ну й до питання, чи потрібні вебсторінкам вікно з інформацією про файли cookie:
Питання: Чи мені потрібно мати на своїй вебсторінці вікно з запитанням про файли cookie? Відповідь від Dr. DSGVO AI: Ні, вебсторінці не обов'язково повинні мати вікно з повідомленням про файли cookie. Файли cookie є лише допоміжним засобом для ідентифікації користувача та змусити сервер надсилати певну інформацію користувачеві. Вебсторінка також може виконуватися без файлів cookie, наприклад шляхом включення JavaScript.
Респонс правильний у сутності і перевершує більшість людей. Технологічно обізнаний фахівець із захисту даних все ж би не був цілком задоволений цим відповіддю.
Оптимізація штучного інтелекту
Перед тим, як КІ надішле добрі відповіді, довго шляху треба пройти, але він має бути зроблений лише раз. Цей шлях я майже пройшов. Результати, які згадані вище, походять від ще не дуже оптимізованої програми КІ.
Проблема з мовними моделями, які повинні надавати відповіді власними словами, полягає в змішуванні закодованих фактів (називається контекстом) та внутрішнього знання, яке міститься у словниковому запасі мови. Насправді навчитися мови не вдаватиметься без захоплення знань (або помилкових даних).
Найкраще це питання видно при запитанні про те, що таке куки. almost весь інтернет помилково стверджує, що вони є текстовими файлами. Це помилка, яку я вже кілька разів описував і навіть доводив. У моїй мовній моделі штучного інтелекту, яка ґрунтується на багатьох текстах з інтернету, ця помилкова інформація глибоко закріпилася. Коли тепер я ввожу статті із блогу Dr. DSGVO у мою мовну модель, ці документи майже не протистоять помилковій ствердженню в моделі, що куки є текстовими файлами. Мовна модель частково навіть не може добре розрізняти умовний та дієвідмінний час. Я вже використовував умовний час щодо куки два речення раніше. Само лише це міг би змусити мовну модель збентежитися, коли цей текст, який ви зараз читаєте, потрапляє у мовну модель.
Всі люди дурні, а саме в більшості галузей знань. Системи штучного інтелекту можуть бути значно розумнішими у багатьох галузях знань, ніж найталановитіший фахівець галузі.
Доведення першого речення: Посмотріть навколо. Доведення другого речення: Дивіться GPT-4, а також деякі приклади нижче.
Дахер я не залишилася на місці, обмежуючи контекст для свого системи запитів-відповідей, а ще зробила декілька додаткових оптимізацій. КІ-модель не може бути навчена вільно, якщо потрібний суперкомп'ютер не готовий. Тому була змушена використовувати ресурсозберігаючі методи. Це схоже на гонку проти нових проблем. Поки одне питання видалено, очікування іншого, яке виникає внаслідок попереднього рішення.
Для цього приклад: Для того щоб AI-Modelle зменшити розмір, щоб вони вміщалися в графічний адаптер, який ще два роки тому вважався висококласним сегментом, існує можливість квантовації. У загальній формі з високою точністю перетворюються на числа зі зниженою точністю, без того, щоб якість штучної інтелектуності суттєво погіршилася. Тепер сучасні бібліотеки програмування не підтримують усі методи навчання для моделей AI, якщо застосовується Квантова оцінка. Тому знову вводяться інші методи, які вирішують цю проблему. Але потім знову виникають проблеми при тонкому налаштуванні тощо.
Наприклад, як оптимізація штучного інтелекту впливає на його результати.
Відповідь від не оптимізованої КІ на питання «Що таке відповідь на всі питання?»:
Відповідь на всі питання є: «Що таке відповідь на всі питання?»"
Або також:
Відповідь на всі питання є: «Ми цього не знаємо»."
Або навіть
Відповідь на всі питання така: «Якщо ти знаєш, то знаєш»."
Або навіть
Відповідь на всі питання така: «Якщо ти знаєш, що робиш, то можеш це зробити»."
Або навіть
Відповідь на всі питання така: "Хто як я спілкується з іноземними органами влади, організаціями, підприємствами та захисниками даних, часто шукає англійську переклад для спеціалізованого терміна захисту даних. Мій словник об'єднує найбільш важливі поняття зі свого погляду."
Або навіть
Рішення всіх питань таке: "Якщо є відповідь, то вона буде відповіддю на цю питання". Якщо людина має питання, яке не має відповіді, тоді немає відповіді на це питання.
Або навіть
Відповідь на всі питання така: «Якщо хочеш точно знати, тобі потрібно краще запитувати»."
Або навіть
Відповідь на всі питання — те, що немає відповіді на всі питання.
Або навіть
Відповідь на всі питання така: сторінка створена декількома комп'ютерами та мережами, тому усі матеріали були створені комп'ютером.
Або навіть
Відповідь на всі питання — це те, що немає відповіді на всі питання. Є лише відповіді на певні запитання.
Наприклад, варто відзначити, що питання "Що таке відповідь на всі питання?" здається непридатним для відповіді в або у блозі про захист даних, як Dr. DSGVO. Але це лише бічна думка.
Ну, відповідь власної оптимізованої КІ на ту ж саму питання:
Відповідь на всі питання — 42.
Відповідь моїй оптимізованій КІ на питання щодо відповіді на всі питання.
Ось вже правильна відповідь. Технікою називається «Grounding». Якщо б КІ переклала термін як «Грунтування», то це була би неправильна відповідь … Натомість «Grounding» означає, що ви «еродує» модель КІ, вчите її, чого є Джерело Правди (ground truth). Якщо хочете так, навчаєте КІ, хто її Правлячий.
Також складове було навчити КІ, що за допомогою IP-адреси місце розташування сервера не можна надійно визначити. Найкращий відповідь власної КІ на питання, чи можна шляхом використання IP-адреси визначити місце розташування сервера була наступна:
За допомогою адреси IP місце розташування сервера не можна надійно встановити, оскільки зв'язок між адресою IP та сервером може змінюватися в будь-який час. Проте існують методи визначення місця розташування сервера, наприклад використання геолокацізації IP або порівняння метаданих.
Відповідь Доктора GDPR щодо питань "Можливо визначити розташування сервера за допомогою адреси IP?
Ця відповідь, я вважаю, ні 99,99 % людей не зможуть так добре дати. Поглиблення досягнень, яке можна отримувати за допомогою моделей КІ, вже досить помітне.
Висновок
Комплексні системи КІ можуть бути створені на Consumer-Grade Hardware. Для деяких проблем досить навіть середньої якості орендованого сервера (або поганої власної машини). До цієї групи належить, наприклад, пошук документів або Білки-Заявки у внутрішній мережі за допомогою природних мовних запитів. Нудне шукання ключових слів, коли найвищим досягненням було автоматичне шукання синонімів, тепер належить до минулого.

Самі системи штучного інтелекту, які можуть генерувати відповіді власними словами, можна експлуатувати на платних серверах. Це навіть стосується використання світової (але дуже незначної) німецької мови. Також можливе поєднання знань з декількох документів та формування центрального висновку за допомогою подібних систем. Усі ці речі стають практичними шляхом застосування сучасних методів оптимізації. Якщо ви хочете, щоб я розповіла про те, чи економічно ефективним є застосунок вашого підприємства, зверніться до мене. Під економічною ефективністю розумію те, що це не ракетний проект, а досить передбачуваний фінансовий план, який вас захопить.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
