Дані – цінний ресурс, особливо коли мова йде про бізнес-секрети. Але навіть конфіденційні та особисті дані shouldn't бути передані третім особам (як ChatGPT). Власні системи КІ забезпечують не тільки конфіденційність, але також велику гнучкість та точну спрямованість на конкретні вимоги. Практичний звіт.
Вступ
Виночас просто дуже простий, як стверджував слоган одного оператора мобільної мережі. Просто не завжди добре, можна сказати про дані інтенсивні програми. Багато людей не дуже цікавляться захистом даних. Коли мова йде про дані працівників, які вважаються конфіденційними згідно з договором, або патентні підстави та інші бізнес-секрети, компанії більш чутливі до цього питання. У кінцевому підсумку ніхто не хоче мати справу із юридичним розбратом. Напевно, бажання розповсюдити внутрішнє підприємницьке знання у світ теж не дуже поширене.
Кібернетична інтелектція: Юридичний підхід вивчає те, що можливо дозволено і роз'ясовує ризики. Технічний підхід надає дані-орієнтовані системи та самовідповідно вирішує багато юридичних питань.
Конструктивно діяти замість аргументації — це добра стратегія, мені здається. Юристи завжди мають чим зайнятися навіть тоді.
Легко користуватися ChatGPT, проте деякі роблять це дуже легко з шкодою для корисності. Від цього вже видно, що глибоке мислення важче, ніж примітивне або неефективне діяння. навіть більші зусилля приймаються у разі, якщо вони досить невеликі та часто повторюються. краще витратити 100 разів трохи більше зусиль із загальним високим обсягом роботи, ніж зробити одне велике зусилля із загальним значно нижчим обсягом роботи.
Навіть недавно Зум як постачальник програми для відеоконференцій розробив нові умови використання. З цим Zoom отримує право майже вільно використовувати дані, які були отримані під час відеоконференцій в Zoom. Включені також розповсюдження даних користувача, включаючи транскрипти та використання для навчання машин („підготовка КІ”). Це ніколи б відбулося з даними-орієнтованою програмою із Німеччини. Так само ні з яким власним системою було б проблем. Тепер усі користувачі Zoom мають потенційну проблему.
Всі користувачі Zoom мають потенційно проблему, оскільки вони швидше використовують, мабуть, безкоштовні зовнішні системи замість даних-орієнтованих рішень.
Дякуємо за допомогу у прийнятті рішення.
Якщо людина не робить собі життя легшим, ніж воно є, вона хоча б використовує Інтерфейс ChatGPT через власне програмне забезпечення. З допомогою цього можна створити багато застосунків. ChatGPT має поряд із дивовижними здібностями декілька непоправних проблем:
- ЧатГПТ дуже повільний.
- Більшість даних системи ChatGPT не мають значення для бізнес-аплікацій (викликають перешкоди, сприяють галюцинаціям, уповільнюють роботу системи, збільшують помилковість).
- Всі дані потрапляють до OpenAI і відповідно до Microsoft.
- У ChatGPT дані не є безпечними (дивіться пізнє включення опції відмови від згоди замість згоди, витік даних, політика американських компаній тощо).
- ЧатГПТ ґрунтується на застарілому загальному знанні.
- ЧатГПТ не знає документів вашої компанії та, надіяюся, ніколи їх не знайде.
- ChatGPT витрачає гроші залежно від кількості оброблених текстових блоків (токенів). Завантаження та аналіз великого PDF зробить вас трохи біднішим. Неправильна програмування (безкінечний цикл або рекурсія) знищує кожне бюджет у короткий термін.
- ЧатГПТ не дуже добре розширюється.
Ви можете бути впевнені, що ваші дані будуть використані лише для навчання мовному моделю, який розробляється нашою компанією та не будуть передаватися третім особам. Якщо ж вони будуть використовуватися для тренування моделі іншої компанії або навіть для налаштування його параметрів, то ніякі гарантії щодо захисту даних та їх конфіденційності вже не можуть бути забезпечені. Модель мови навчається не лише граматиці та структурі мови, але й набуває певного досвіду. Звідси виникають недоліки, які більше заважають ніж створюють проблеми юридичні. Це означає, що вони не можуть бути вирішені навіть за допомогою права.
Офлайн-ІК як рішення для підприємств та органів влади.
Далі інформації. ([1])
Аналогічне можна сказати про Білдгенератори як Dall-E або Midjourney. Багато з цих генераторів ґрунтуються на підході, названому Stable Diffusion. nearly всі подібні методи використовують LAION-дані. Цей набір даних був створений за допомогою Common Crawl, який використовував дані для знаходження вебсторінок із зображеннями та їх описами. Common Crawl є величезним збірником майже будь-якої вебсторінки. Якщо одне зі своїх зображень потрапило до цього набору даних, то воно не було там у чистому вигляді. Натомість ваше підприємство (логотип, зображення продукції тощо) було збережено у структурному вигляді в штучних нейронах КІ-даних іншого власника. Виведення цього зображення знову майже неможливо. Натомість потрібно було б знову розрахувати модель КІ. Чи зробить це власник моделі КІ, невідомо. У будь-якому разі, навчання моделі дуже інтенсивне завдання із складною збіркою даних.
Власні системи штучного інтелекту підприємства
Всі згадані проблеми будуть усунені, якщо у вашій компанії буде власне AI-System. Такі системи називаються місцевими КІ-системами або автаркними КІ-системами. Вони не потребують інтернет-з'єднання та можуть бути розміщені під вашим стілом.
Ці переваги мають власні системи штучного інтелекту підприємства:
- Вольові дані контроль: Ви визначаєте які тренувальні дані або попередньо навчені КІ-моделі використовуються.
- Питайте ваші дані і не дані з інтернету: Під'єднуйте свої підприємницькі документи та засоби масової інформації.
- Висока швидкість: У будь-якому випадку, ваше система буде швидша за ChatGPT, якщо ви цього хочете. Кількість користувачів у вас буде значно нижчою ніж у популярних платформ КІ. Крім того, ви зможете суттєво зменшити обсяг даних.
- Вільна налаштуваність: Далі нижче більше про це.
- Велика різноманітність застосунків: семантична пошукова система, розуміння тексту, помічники запитань та відповідей, генератори зображень, аудіотранскрипція, тощо.
Наприклад, такий приклад із практики можливий для місцевого системи в вашому бізнесі. Наш приклад працює на сервері з низькою вартістю і працює. Він ще знаходиться у розробці та виглядатиме значно краще за сучасний стан. Відкликовка закінчення роботи не має великого значення і пов'язана лише зі моїми приоритетами.
Семантична пошукова система для бізнес-документів
Дослідіть свої документи, ваш Тікетний система (наприклад Jira), внутрішні вебсторінки та багато іншого за допомогою розумного системи. Створіть з усіх своїх документів базу знань і об'єднайте свій корпоративний досвід у електронному мозку.
Для стандартних типів документів, як PDF, легко використовувати імпортні рутини без додаткових витрат. Adobe Cloud у цьому аспекті не потрібна. Всі ті речі, які можуть бути автоматизовані в вашій компанії, забезпечують високу актуальність та більше вільного часу для тих, хто не є машинами.
КІ-розшук — не пошуковик, а семантичний пошук. Кібернетичні інтелекти дуже добре вміють здійснювати структурований, семантичний або навіть не зовсім чіткий пошук. Вони погано виконують точкові пошуки, хоча це технічно можливе. Це саме так, як у людини.
Оттак я пропоную багатоступовий підхід, якого не здатний виконати навіть ChatGPT:
- Оптимізація: виявлення помилок у написанні або поганих синонімів у запитуваних словах. Так з " CommonCrawl" виникає пропозиція щодо найбільш ймовірного запиту користувача.
- Пошук із звичайною suchmaschine. Це особливо розумне рішення, коли ви шукаєте „Common Crawl“. КІ з цієї види пошуку дуже підкріплена, тому вона дає погані результати.
- Семантична пошук: Ця різновид пошукової роботи особливо добре підходить для запитів, які висловлені природною мовою. Наприклад: „Чи можна за допомогою адреси IP сервера визначити його розташування?
- Виведення відповіді на поставлену запитання в власних словах. На питання під пунктом 3 моя КІ відповідає, наприклад: «За допомогою адреси IP місце розташування сервера не можна надійно встановити, оскільки зв'язок між адресою IP та сервером може змінюватися в будь-який час. Проте існують методи визначення місця розташування сервера, наприклад використання геолокацізації IP або порівняння метаданих». КІ від Bing відповідає помилково «Так» і наводить джерела, які хочуть підтвердити помилкову відповідь.
- Транспарентність: Поки що КІ може давати помилкові відповіді, як це показує пошук Bing компанії Microsoft, користувальницька панель повинна бути розроблена відповідно. Під цим я розумію не тільки вказівки, але й виведення джерел, які призвели до результату, та ще багато іншого.
Для пошуку в цьому блозі я вже деякий час використовую вельми економічну серверу, який навіть не має графічного процесора, здатного виконувати завдання на основі штучної інтеллекту. Побутові графічні процесори (CUDA-спроможні відеокарти) від Nvidia використовуються для завдань зі штучним інтелектом, бо вони можуть виконувати розрахунки у багато разів швидше ніж звичайні процесори (CPUs).
Якщо мої сервери зараз доступні, кліки по посиланнях, згаданих у пунктах 1 та 2 вище, повертають справжні результати моїй пошукової операції. Семантична пошук я можу також виконувати, але для цього мені потрібен свій власний сервер в інтернеті. У цьому випадку я використовую свій майданчик AI (Server номер два, який відрізняється від згаданого раніше поганого сервера), щоб виконувати розробкові роботи.
Надалі такі результати видає моя пошукова операція на першому рівні, якщо ви помилкуєте та це визнається:

Є нічого особливого у корекції маленького письмового помилки. Однак навіть власна пошукова система WordPress, яка працює вже кілька років, не знаходить жодного результату, якщо запитуваний термін не згадується в блогових публікаціях.
Моя пошукова система визначає деякі помилки написання. Для цього було створено Вокабуляр із термінів, які майже завжди зустрічаються у моїх публікаціях. Тільки ці терміни є "правильними" або підходящими для пошукової операції над моїми документами. Як оптимізацію помилковий пошукові термін коректується та вводиться в поле пошуку у найбільш правдоподібній формі. Якщо WordPress не знаходить жодного результату, відразу надається результат для виправленого пошукового терміна. У іншому випадку надається конструктивний висновок із повідомленням "Ви, можливо, мали на увазі…
Якщо пошуковий термін не містить пробілів, то це очевидно не питання, яке могла б відповідати КІ. Тому для цього також не стартує семантична пошука, а лише нормальна пошук.
Якщо ж запитуваний термін довший, може бути це питання. Спочатку виводяться результати пошуку WordPress (якщо вони існують). Потім слідують результати пошуку семантичної КІ. Наприклад:

Наймовірно, але класична пошукова система знаходить відповідь. Це, ймовірно, відбувається тому, що ця запитання часто використовується для демонстрації можливостей моїй штучної інтелекту. У результатах пошуку гаряче вказано, що відповідь була знайдена класичною пошуковою системою і 18 відповідей були знайдені за допомогою не дуже точної системи. Непідкреслена пошукова система є векторною пошуковою машиною, яка працює на мінімальній апаратній базі.
Як наприклад, результати з пошуку в Bing:

Як бачимо, Bing відповідає на запитання «Так». Відповідь помилкова, бо IP-адреси часто не вказують на певний сервер і навіть якщо вказують, то ця відповідність може змінитися за секунду.
Віртуальний WordPress не знаходить відповідей на питання про помилки написання, наприклад таке: „Суть кукі є особистими даними?“ У цьому випадку було помилково написано лише одне „о“ у слові „Cookies“. Проте за допомогою семантичної пошуку з використанням мовного моделювання відповідь була знайдена:

Пошук КІ успішно завершився. Що тут не зовсім зрозуміло, бо ще не закінчено програмування: Мій пошук КІ не лише повертає одне документ як результат, але також може вказувати місце знаходження в тексті досить точно. Для пошуку створюється індекс документів таким чином, що кожне документ у дрібніші частини розділений. Ці частини краще можна досліджувати ніж довгий текст. Я міг би показати саме потрібну частину результату пошуку, а не усі документ.
Виявлений внесок дуже точно відповідає запитанню, як свідчить наступний фрагмент тексту внеску:

Наступний етап — видаляти Відповідь прямо в результатах пошуку, і краще робити це абстрактно. Абстрактно означає, що надається підсумок у нових словах. Так само робить людина. Побічний етап був б так звана екстрактивна підсумкова інформація, яка подібна до цитати.
Недавно я описував вже реалізований Showcase для помічника з питань та відповідей для власних документів компанії. Подробиці ви можете знайти в посиланому матеріалі.
Результат
З допомогою внутрішнього системи компанії КІ можна вирішити багато випадків застосування. Такі системи датеносумісні. Вони дозволяють повну контроль над потоками даних.
Наприклад, з Документною пошуком є лише один із багатьох випадків використання. Логіка пошуку ще не повністю реалізована, але вже показує, чого можна досягти. Вона працює на сервері, який можна замовити за «яблоко і яйце» у німецькому провайдері, якщо немає власного сервера. Варіативність підлаштовуваність до індивідуальних потреб майже безмежна.
Wer хоче інвестувати кілька сотень у місяць, отримує досить потужний сервер AI. З його допомогою можна використовувати дуже розвинені мовні моделі навіть німецькою мовою. А також масштабне створення зображень можливе. Замість того, щоб п'ять разів створювати одне зображення із DALL-E, поки не вийде добре результат, просто створіть сотню зображень. Ваша AI навчиться навіть, які зображення вам подобають і відсортує погані результати у майбутньому.
Як у всіх Хмарні послуги, КІ-Дриттсистеми не лише щодо конфіденційності проблематичні, але й щодо витрат (Pay per use). З локальними системами, які належать вашій компанії, немає цих витрат. Ви платите тільки за місячний абонемент на свій сервер, який може бути або орендною ціною, або витратами на експлуатацію. Ці витрати помірні та привабливі для кожного, хто справді має користь від таких КІ-систем. Без великої вигоди ж використання ChatGPT не дуже сенсуватиме.
Якщо захист даних та конфіденційність не є проблемою, ви можете хоча б подумати про використання інтерфейсу ChatGPT програмно. Кіберінтелект робить будь-яким чином економічно вирішуваними проблеми, які раніше були майже нерозв'язними або вимагали значних зусиль.
Сповістіть мене, якщо ви хочете створити власну систему КІ для своєї компанії або використовувати інтерфейс системи третього боку для зменшення ручної роботи. При використанні інтерфейсів до систем КІ інших компаній можна хоча б частково зменшити проблеми з даними. Наприклад, особисті дані можуть бути автоматизовано змінені до певного рівня.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
