Кібернетична інтелект: Як зберігають дані мовні моделі КІ? Включають ли вони особисту інформацію користувачів?

Дані зберігаються від моделей мовних технологій штучного інтелекту у вигляді стовпчиків чисел. Як саме це відбувається і чому цим шляхом людська інтелектова функція розшифровується? У моделі штучного інтелекту після навчання наявні дані, пов'язані з окремими особами чи захищені авторським правом?

Вступ

Побутовий похід сучасної КІ почався у 2017 році, коли був винайдений підхід Трансформер. Він працює з кодувальником та декодувальником і використовує так звані вбудування як носії значення (семантика). Вбудуванням є рядок чисел, який також називається вектором.

При мовних моделях ідея полягає в тому, щоб означення слова було визначено шляхом визначення його контексту, який зберігався як вектор. Контекст слова особливо стосується інших слів у цьому ж реченні. Означення виникає шляхом аналізу спільного виникнення декількох термінів (когокуренція).

Сучасна КІ працює так, що будь-яка інформація перетворюється на послідовності чисел. Прикладами даних є тексти (при моделях мови), мовлені слова, зображення, відео, музика, дані температуру сенсорів, метеорологічні дані, курси акцій, сейсмологічні дані, дані чутливості запаху, значення UV-сенсорів та все інше, що може бути виражене числами, тобто цифровані.

У моделях мови AI іноді зберігаються цілі слова.
Також діє для нових моделей ChatGPT, дивіться статтю.

Це відповідає за моїм поглядом якісно точно тому, яким чином працює людський мозок. Мозок спочатку працює аналогічно, комп'ютер – цифровим. Поруч біологічні нейрони людини працюють за рахунок потенціалу дії, тому швидко перетворюються на цифровий.

Для мовних моделей КІ тексти розділяються на одиниці, такі як речення, а потім перетворюються на семантично навантажені послідовності чисел. Це відбувається шляхом застосування алгоритму Word2Vec, який для кожного слова в контексті обчислює вектор. На сьогодні існують кращі методи, ніж Word2Vec, які працюють подібним чином (дивіться наприклад так звані Sentence Transformer).

Векторні розрахунки

Дві векторні величини можуть бути віднімані за допомогою класичної математики. Точно так же можна розрахувати їхню різницю. Різниця тут є семантичною подібністю або різницею двох понять, виражених через свої вектори.

Для великої бази документів можна використовувати Word2Vec, щоб розрахувати вектори для всіх можливих термінів, що зустрічаються у базі документів (корпусі). Система до цього часу не має жодного розуміння німецької (або англійської) граматики. Тим не менш, "вона знає" через порівняння векторів, які терміни мають семантичний зв'язок між собою.

Найбільш популярні висновки, які зроблені з допомогою Word2Vec, такі:

Польща відноситься до _Варшави так само, як Іспанія до Мадрида (цілком жирним друком вказується термін, який Word2Vec визначає самостійно після введення перших трьох курсивних термінів).
Німецьке слово Katze відповідає англійському слову Кіт (з допомогою Word2Vec можна виконувати переклади, а саме контекстно-спрямовані: «Schnecke» може бути тваринкою, але також і спорудою для підйому).
Kanzler plus Frau minus Mann = Kanzlerin

Базова основа всього цього лише слова, які з'являються у контексті, тобто в реченнях. Так само люди можуть розуміти тексти, із тим різницею, що машини мають набагато менше загальнотворчого досвіду ніж людина. Це скоро зміниться і призведе до того, що роботів буде вважати найрозумнішими існуваннями на цьому (і інших) планетах. За умови, якщо людина не знищить себе раніше та не зможе більше будувати такі машини.

З повернення до питання, як мовне моделювання штучного інтелекту зберігає дані, тобто поняття, та чи можуть ці поняття бути особистими. Особистий зв'язок було б підтверджено тоді, коли імена або ідентифікатори, такі як номери телефону, реєстраційні номери транспортних засобів або ідентифікаційні номери податкової служби Відбудовуваний збережені в моделі штучного інтелекту.

Наприклад, дані для зберігання в моделі КІ

Нижче показаний скріншот з вихідним матеріалом німецького моделю AI, який підлягає архітектурі GPT-2 від OpenAI. GPT-2 відрізняється від наступників тим, що він ще публічно доступний.

Вибірка з 52 тисяч слів німецького моделю GPT-2

Всього словник складається з випадково вибраних саме 52 тисячі слів. Причина цієї досить невеликої кількості (відносно більшої кількості існуючих німецьких слів) вказується нижче.

Дані пари можна розпізнати. Перший частину можна побачити жовтуватим кольором в малюнку та вона представляє термін. Другий частину називають індексом або ідентифікатором терміна, який тут виглядає блакитним кольором.

При розгляді термінів помітно, що багатьом перед ними стоїть знак, який заважає. Це пов'язано з відповідною кодуванням лексичного матеріалу та буде розкрито далі.

Вищі терміни були визначені шляхом використання великої кількості текстів для навчання мовному моделю. Корпус текстів був створений за допомогою справжнього існуючого прикладного модуля шляхом витягу з Вікіпедії, Європейського книжкового магазину корпусу , Open Subtitles, CommonCrawl, ParaCrawl та News Crawl. ([1])

Тексти були потім розподілені на слова, що становить певну вигідність. Цей проблем належить до галузі NLP. NLP означає Natural Language Processing і позначає обробку природніх мовних текстів (або інших модальностей). Самі по собі дуже розповсюджені та добре розвинуті фреймворки, такі як Scipy та Spacy, часто дозволяють помилки, які досвідчений розробник КІ може лише контролювати, використовуючи власні процедури після обробки. ([1])

Моделі мови AI можуть точно повторювати цілі речення, які таким чином зберігаються в моделі мови.
Для цього також застосовується Gilt тощо для ChatGPT-3.5 та ChatGPT-4, дивіться статтю.

При визначенні термінів виникають багато неякісних результатів, як показано нижче. Терміни визначаються за звичайною схемою, тобто не за допомогою нових методів КІ. Вони представляють вступну стадію. Тільки після визначення термінів застосовується нова техніка КІ шляхом використання термінів для створення моделі мовлення КІ, що називається training. Утримані моделі називаються попередньо утриманими, а не навченими. Причина полягає в тому, що можливе подальше навчання моделей, яке називається Finetuning. Крім того, вже навчені, тобто створені моделі, можна використовувати безпосередньо. Вони є попередньо конфігурованими (pre-trained).

Найкращі з цих термінів не виглядають як справжні слова. Нижче вибірка тих саме термінів із короткою коментарією (Деталі та підстави далі):

rechtspopul → Часткове слово (початок слова). Усього слово, ймовірно, називається «правопопулістичний» (з можливими суфіксами «e» або «en»).
Бемесунгс → Можливо виникло через знак тире (Бемесунгс-основи(н)).
Memmingen → Правильна (хай і існуюча) назва німецької міста.
Tasman → Підсумка слова (початок слова). Усього слово, ймовірно, називається «Тасманія».
Straßenbahnen → Ä, Ö, Ü und ß werden unleserlich kodiert, what den Begriff nur für den Menschen merkwürdig aussehen lässt, nicht aber für einen maschinellen Interpreter.
Italian → Можливо німецький текст містив англійське слово. Ніби випадково, але ChatGPT-3 теж може розмовляти німецькою, хоча вона спеціально навчена на англійській мові. Також можливо, що прочитані тексти в іншій ніж німецькій мові були помилково розпізнані як німецькі.

Токенізаційний алгоритм як генератор слів або словосполучень

Видаються слова з текстів, використовуючи так званий Токенізатор. Токен є семантичною одиницею, тут це слово. Для GPT2 існує tokenizer із технічним іменем GPT2Tokenizer.

Токенізатор має не лише завдання визначати слова, тобто знаходити межі між словами. Насправді токенізатор намагається надати кожному слову певне значення у вигляді чисел. Токенізатор GPT-2 надає іншому значенню слову, якщо воно починає речення, а не середнього його частини або наприкінці речення.

Це призводить до досить поганих результатів, як показує офіційне приклад для tokenizer (дивіться попередній посилання два абзаци раніше):

Вхідний набір "Привіт світ" приводить до наступного виводу Tokenizers: [15496, 995]. З двох слів таким чином обчислюються дві числа, які повинні відбити семантику речення.

Що стосується сучасних мовних моделей AI збереження фрагментів слів та цілком слів у вигляді токенів не є умовою наявності даних особистих даних в моделі AI, але збільшує проблему.

Надзвичайно подібний вхідний набір «Привіт Світ», до якого було лише одне (безсенсічне, але для людини незначне) пробіл перед ним, створює зовсім іншу вивідну таблицю [18435, 995]. «Привіт» отримує значення 15496, тоді як «Привіт» з попереднім пробілем отримує інше значення 18435.

Для створення однієї та тієї ж мови двох різних чисел означає тут щось помилкове навчити КІ-мовному моделю.

Даний tokenizer GPT-2 називається Byte-Pair-Encoding або BPE-tokenizer. BPE кодує слова у так звані токени. Токени представляють фрагменти слів і мають також компресуючу функцію, оскільки фрагменти слів можуть виникати в декількох термінів та терміни можна зберігати більш ефективно. Але термін може бути збережений цілком, тому він відповідає лише одному токену.

Таким чином можна пояснити, чому вище перелік часткових слів виник. Прості перевірки підтверджують хоча б на рівні основ, що частина слова "визначення" походила від повного слова "визначальна база", повного слова "визначально-основна" або повного слова "визначальні підстави". Для ілюстрації наведені нижче записи з лексичної бази німецького моделю мовлення AI GPT-2:

"Оціночний"
"Базове"
"Базове"
"Основи"
"Базове"

Перший термін "ĠBemessungs" має трохи дивне перше знак, яке тут для ілюстрації друкується жирним шрифтом. Цей знак вказує на те, що цей токен (фрагмент слова) є початком слова.

Терміни від двох до чотирьох не є початками слів, оскільки перше їхнє символ не є Символ податкового обліку. Внесок «Основоположник» у словник вказує на те, що складене слово з тире, наприклад «Визначення-основоположник», існує в корпусі даних навчальних даних («Визначення» як початок слова плюс «Основоположник» як закінчення слова).

Термін «ґрундлаге» насправді називається «ґрундовий», і він вважається початком слова через перше знак, яке є спеціальним знаком. Внаслідок цього записи 2 та 5 із попереднього перелічення є дві різні частини мови (з точки зору моделювання КІ семантично). З одного боку, це «ґрундовий», тобто кінцеве слово, а з іншого боку, це «ґрундовий» як початок слова. Тільки для повноти: частина мови, яка представляє початок слова, може бути розглянута як окреме слово, якому не обов'язково має бути присвоєна можливість закінчення слова як можливу додатковість. "Грунтовий" явно є самостійним словом для німецького читача. Слово «ґрундовість створення» (створене лише для прикладу) має той же початок, але додаткове суфіксне закінчення та, отже, іншу змістову відмінність.

Загалом слід припустити, що моделі мовної інтелектуальної діяльності містять як дані особистого характеру, так і дані, які мають значення згідно з правами авторського права.
Обґрунтування: Дивіться статтю.

Аналогічно цю перевірку можна виконати для згаданих вище та показаних на малюнку фрагментів слів „Тасман“ і „правопопуліст“. Слово „Тасман“ досить чітко вказує на „Тасманію“. І справді, в словнику моделі GPT-2 є запис „ien“. Якщо б цей запис не існував, вище згадана пояснення трохи похитнулося б. Але так воно й не сталося. Для „правопопуліст“ також знаходяться очікувані закінчення (конклюденти) „істичний“, „істичні“, „істичних“, „істичний“ і „істичне“. Лише „істичному“ немає, але це добре, бо навчальні тексти цього слова не обов'язково повинні містити його.

Чим рідше зустрічається слово в корпусі навчальних даних, тим довше воно зберігатиметься у словнику. Слово, яке зустрічалося лише один раз, швидше за все збережене без змін. Дуже часто використовуваний термін із багатьма літерами може бути збережений у вигляді декілька фрагментів слів, кожен із яких складається з двох або трьох літер. Для цього типу термінів «ĠAsylpolitik» може бути прикладом (перша літера знову є спеціальним знаком, який вказує на початок слова чи повне слово). Безумовно, будуть помітні лише додаткові фрагменти слів у вигляді закінчень «ер», «ерин» та їхніх варіантів (Asylpolitiker, AsylpolitikЕрін тощо.).

Поверхня OpenAI показує, як з тексту входу створюються токени. Наприклад, справжній приклад ([1]) :

Джерело: OpenAI Tokenizer. (зображення було перекладено автоматично).

З джерела тексту „Привіт, це є текст“, який складається з 23 символів, генеруються 10 токенів. Токени кольорово позначені у нижчій ілюстрації. Серед них такі як «Hall», «o», «,», «d», «as» тощо. У цьому випадку єдиний токен, який представляє повне слово, це для поняття «текст» із вхідного вікна. Більш вражайуча інтерфейс-сторінка дозволяє вибирати певні моделі чату та показувати очікувані витрати на токенізацію. Пам'ятайте: загальний процес чату складається з подальших кроків. У першу чергу при запитаних документах, які завантажуються, зростають витрати.

Є можливість, щоб навіть фрагмент слова був особистісно орієнтованим. Хоча це набагато менше ймовірніше ніж у випадку повністю написаного терміну, який складається з декілька фрагментів слів, проте все ж таки можливе. Крім того імена із спеціальними знаками (дивіться наприклад літери інших мов, які не містяться в стандартному наборі німецької мови) рідко діляться на окремі слова, оскільки вони не мають спільних послідовностей літер з іншими термінами. Вони часто знаходяться у повному вигляді та тому у відкритому тексті є частиною словника КІ.

Є слово або власне ім'я, яке може бути особистим. Чи існування окремого імені в колекції слів є проблемою, можна сумніватися. Інша справа, коли імена чи інші дані особистих даних згадуються у певному контексті. Такий контекст називається реченням. Детальніше далі. Задовго до питання про те, як модель КІ генерує слова.

Як з фрагментів слів знову утворюються слова?

Найбільш пізно при запитуванні моделі штучного інтелекту використовується вхід користувача (також відомий як Prompt), щоб згенерувати відповідь. Ця відповідь складається, як показує досвід спілкування з ChatGPT та іншими мовними моделями, із повних імен та термінів. Отже, тут прямо помітно, що результат запитування моделі штучного інтелекту у вигляді слів містить контекст, який утворюється реченнями.

Інтересна питання, чи можна сказати, що КІ-модель може містити особисті дані навіть у стані спокоєм. Для фрагментів слів ця небезпека вже існує, як було показано раніше.

Що таке особисті дані?

Персональні дані також є даними, які псевдонім мають. Псевдонім означає, що значення даних буде знову особистим лише після декодування. Чи відбувається фактично декодування чи тільки об'єктивно можливе, не має ніякого значення. Дивіться далі Стаття 4 Номер 1 GDPR або навіть рішення Брейєра ЄСПЛ (адреси IP є особистими даними, оскільки існує об'єктивна можливість ідентифікувати власника інтернет-каналу). ([1])

Як декодує система КІ рядки чисел назад у слова?

Вперше під час тренування моделі мови для штучного інтелекту створюються згадані вище фрагменти слів, які називають токенами. Кожний токен представляється числом. Таким чином комп'ютери краще працюють.

Далі створюються (залежно від застосування) послідовності чисел із окремих речень, які складаються з токенів, які називають векторами та представляють собою так звані (семантично навантажені) імплікати.

Ці імплікації, тобто вектори, тобто рядки чисел, зберігаються у штучному нейронному мережі моделі КІ. Модель складається лише з рядків чисел. Це трохи спрощена та неточна, але достатньо для розгляду, представлення. Збірка векторів, які знаходяться між собою у відносиному стані називається Тензор.

КІ-мовний модел зберігає особисту інформацію під псевдонімом. Псевдоніми дані є особисті дані.
Перевірте статтю та Арт. 4, пп. 1 ДЗПВ.

Тепер користувач запитує питання у вигляді промпту до моделю AI, запит користувача також перетворюється на рядки чисел, тобто вектори, тобто імплікації. Для цього використовується описаний вище tokenizer.

Нині порівнює модель КІ вектори (= запит користувача) з векторами (= "знання", яке було передано моделі КІ раніше у вигляді навчальних даних). Результатом є знову вектори (один або декілька, залежно від довжини виходу моделі КІ).

Ці вектори виходу, тобто рядки чисел, тобто семантично навантажені імплікати, знову декодуються за допомогою згаданого раніше tokenizer. В результаті утворюється зібрання слів, яке ми називаємо реченнями.

Токенізатор кодує та декодує тексти. Він кодує тексти під час навчання моделю КІ і для перетворення промпту в форму, яку розуміє модель КІ. Після відповіді моделі КІ виникають рядки чисел, які токенізатор розуміє та знову перетворює на слова за допомогою розподілу фрагментів слів на числа (як вище вказано).

Які дані містить модель КІ?

Випадково згадані фрагменти тексту (що можуть також бути повними словами або іменами) не містять жодних критичних даних про окремих осіб. Некритичним, наприклад, буде знання імені людини. Що є проблемою в тому, щоб знати, що існує людина з ім'ям Максі Містерсон? Я не бачу ніякої проблеми, якщо немає додаткової інформації, пов'язаної з цим іменем. Коли відсутній контекст, знання імені людини, швидше за все, є некритичним. Інакше виглядатиме ситуація зі зв’язковим номером або адресою електронної пошти, оскільки вони можуть містити ризик неправдивої реклами тощо.

Чи можна вважати, що модель КІ зберігає дані так, щоб вони могли бути розцінені як особисті? Коротка відповідь – Так. А ось доказ:

ЧатГПТ отримує наступну запитання на яке відповідає ЧатГПТ наступним чином:

Питання до ChatGPT: "Відкликайте перший абзац статті 1 ДЗН (Датепротокової законодавчої норми) в точності Відповідь від ChatGPT: „Стаття 1 Пункт 1 Закону про захист даних (GDPR) говорить: «Ця директива містить вимоги щодо захисту фізичних осіб при обробці персональних даних та вільному обміні такими даними»
Моделі мови AI можуть відтворити навчені тексти буквально. Наприклад, такий приклад із ChatGPT-3.5

ЧатГПТ відповідає на цю запитання правильно, тобто з точним цитуванням. Відчувається, що окремі цілі сенси точно існують у моделі КІ.

У прикладі, який наведено вище, немає особистих даних, але вони можуть бути додані в будь-який час. У цьому випадку просто йде мова про питання. Приклад повинен показати, що дані у моделі штучного інтелекту для мови зберігаються дуже точно. З розрізнених фрагментів слів утворюються не тільки окремі слова, але навіть цілі речення. Зауважте, що в статті 99 ДЗП містяться імена осіб.

Інше приклад від 28 листопада 2023 року ([1]) :

Як бачимо, будь-які особисті дані можна витягнути з мовного моделю (у цьому випадку: ChatGPT!) за допомогою невблаганливого запиту. Весь процес також може бути автоматизований, оскільки ChatGPT має інтерфейс програмування прикладного рівня (API). Вище джерело саме так зробило:

Using only $200 USD worth of queries to ChatGPT (gpt-3.5- turbo), we are able to extract over 10,000 unique verbatim- memorized training examples.
Джерело: дивіться саме зараз.

Нижче вказана декларація була б досить правовою, якщо вона була повторена моделлю КІ, оскільки ці дані підлягають захисту даних: „Мірі Маерінг-Гофлачеру з Тюттлінгена було 17 квітня 1994 року народження і хоча тоді їй були повні червоні волосся тепер у неї немає ні однієї луски, тому що вона хворіє на рак типу Х та хворобу Y, яку вона отримала через свої діяльність на Реперборні

Технічні основи

Нижче наведено зображення, яке демонструє, що в Трансформері, який лежить в основі кожного сучасного мовного моделю, дані про позицію кодуються у текстових входах.

Джерело: Dr. GDPR (angelehnt an Mehreen Saeed). (зображення було перекладено автоматично).

З першої текстової вхідної інформації утворюються Tokenи, які потім перетворюються на вектори слів. Вектори слів у своїй основі є рядками чисел. Крім того, для кожного слова та Tokenу кодується його позиція в текстовому вхідному файлі. Ув'язнення слова плюс кодування позиції слова дає результат подальшої обробки кроки в трансформері та відповідно мовному моделі.

Трансформер ґрунтується на революційному дослідженні під назвою Attention Is All You Need за 2017 рік. Цей рік можна вважати початком сучасної штучної інтеллектустики. У цьому дослідженні вказано:

Self-attention, sometimes called intra-attention, is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence.
Звіт із паперу Attention Is All You Need –

Текстовий фрагмент стверджує, що за допомогою математичного методу під назвою Вагадіння („Увага“) розглядаються різні позиції вхідних даних для перетворення їх у семантично навантажену структуру. Увага тут є здатністю розпізнавати ті дані, які здаються важливими для даного контексту (нічим іншим, ніж це передбачення з високою успішністю робить людина).

Для вдосконалення підходу використовуються так звані Мультиголовки. Глава („Head“) тут — шар, який приймає вхідні дані (у мовному моделі це текст). Stefania Cristina пише щодо цього:

The idea behind multi-head attention is to allow the attention function to extract information from different representation subspaces, which would otherwise be impossible with a single attention head.
Джерело: Стефанія Крістіна.

Це означає, що використовується Multi-Head Attention, щоб покращити здатність мовного моделю до обробки мови. З цього випливає також те, що точна передача даних, які раніше були надані мовному модулю у вигляді навчальних даних, стає трохи менш вірогідною порівняно з тим, коли використовується лише один вхідний блок. Як показує попередній приклад із ChatGPT, властивість мовного модуля зберігати інформацію про раніше вивчені тексти та передавати їх точно не втрачається.

Вище вказано, що кожна фраза або речення зберігається у моделі мови в найвідповіднішій однаковій формі. Нижче наведено малюнок, який пояснює це. На малюнку показані внутрішні уявлення двох речень:

Technical Phrase: „to understand machine learning algorithms you need to understand concepts such as gradient of a function, Hessians of a matrix and optimization etc“.
Divination: „patrick henry said give me liberty or give me death when he addressed the second virginia convention in march“.

Примітка до технічної фрази: „Гессенський“ ніяк не пов'язаний із землями Гессен, де знаходиться найбільш бездіяльна інформаційна комісія Німеччини, а відноситься до гессенської нормальної форми або матриці Гессе.

Зображення показує графічне представлення внутрішніх числових репрезентацій двох згаданих фраз. Ліворуч на зображенні — технічна фраза, праворуч — мудра фраза.

Обидві представлення виглядають подібними при короткому розгляді, але суттєво відрізняються в цілому. Кожна інша фраза має ідеальне уявлення зовсім іншої представлення, так що кожна фраза зберігається у мовному моделі однозначно, тобто внутрішньо представляється.

В особливості для перекладу текстів використовуються структури Encoder-Decoder. У Encode'і вводиться текст, який потрібно перекладати. З Decoder виходять перекладені тексти. Обидві частини тренують за допомогою навчальних даних у вигляді пар вхідних текстів та відповідних їм перекладених референтних текстів.

Нижче вказані два речення можуть бути перетворені одне в інше шляхом перекладу тексту входу у текст виходу з мовного модуля штучного інтелекту.

Input text: „The agreement on the European Economic Area what signed in August 1992.“
Ausgabe (Übersetzung): „Угода щодо економічної зони Європи була підписана у серпні 1992 року“

Візуально внутрішнє представлення від ентрі до виходу може бути показане наступним чином:

Джерело: Badanau et al., самі червоні обриси зроблені.

Вгорі показані слова вхідного тексту для перекладу, а внизу — перекладених слів. Перехрестя двох слів вказують кольором на міру їхньої кореляції між собою. Білий колір означає найвищу кореляцію (білий). Таке слово «signé» має найбільшу кореляцію з англійським словом «signed», що здається вірним, оскільки обидва слова в цьому контексті є еквівалентами одне одного у французькій та англійській мовах. Наприклад, два французьких слова «a» і «éte» мають лише помірну кореляцію (світло-сірий) з англійським словом «what», оскільки обидва французькі слова разом можуть бути перекладені на одне англійське слово. Обрамлений червоним колом діапазон вказує на відповідні кольорові кодування.

Інше приклад показує, як у моделі КІ зберігається позиція слова, щоб визначити слова, які семантично належать до того слова, яке зараз обробляється мовним моделлю:

Кожна згадувана рядок тексту показує зверху вниз наступний крок обробки вхідного тексту у моделі КІ. У червоному кольорі друкується саме слово, яке зараз обробляється. З синього кольору позначені слова, які розпізнавалося мовним моделлю як відносно актуальні щодо поточного слова. чим темніше синє, тим більш актуальне слово.

Що з усіма згаданими прикладами внутрішньої представлення слів у моделях мовних процесорів показує, так це те, що не лише позиції слів зберігаються в моделі мовного процесу, але й цілий фрагменти та речення, які таким чином відновлювані, коли мова іде про запит до моделі мовного процесу. Без кодування позицій модель мовного процесу не зможе надати корисних результатів, принаймні для звичайних мовних моделей з передбаченими завданнями (у сутності: генерація тексту).

В публікації за 2018 рік (тобто вже застаріла) вказується, що трансформер не надає особливо точної зберігання інформації про позицію:

The transformer has no recurrent or convolutional structure, even with the positional encoding added to the embedding vector, the sequential order is only weakly incorporated.
Джерело: Лілліан Венг..

Виразно здається, що це не справді негативно впливає на здатність сучасних мовних моделей відновлювати цілі речення у їхньому первісному вигляді та таким чином мати значення згідно з законодавством про захист даних (якщо мова йде про дані особистого характеру). Також здається, що згаданий в статті підхід під назвою SNAIL (Simple Neural Attention Meta-Learner) не стався. SNAIL повинен був ліквідувати помилку трансформерів у зберіганні інформації щодо позицій. Поки SNAIL вже не є актуальним, а трансформери вже давно використовуються та здатні без помилок цитувати цілі речення, вищезгаданий твердження Венга тепер вже майже не має значення.

Має бути припущено, що мовний модуль AI, який ґрунтується на сучасному методі, як наприклад Transformer, може зберігати дані з навчальних даних у їхньому первісному вигляді, навіть якщо це не відбувається завжди.

Нарисувати кілька слів про Трансформер

Трансформерний підхід у своїй первісній формі, як запропоновано в статті "Attention Is All You Need“, заснований на вказаній вище архітектурі кодера-деодера.

Джерело: Васвані та ін., власні червоні позначення.

Як бачимо, обидва Encoder та Decoder ґрунтуються на позиційних кодуваннях та саме так само на вбудовках (Embeddings = Вектори = рядки чисел).

Зараз існують ще інші архітектури трансформерів, зокрема:

Кодувальник-Декодувальник: Оригінальний підхід, зокрема для перекладів або підсумовування тексту
Декодер-тільки: Класові мовні моделі, наприклад для чатботів як ChatGPT, але також LLaMA, Bard, T5 та інші.
Кодувальний тільки: Масковані мовні моделі, наприклад BERT.

Різниці лежать у деталях та не можуть бути розглянуті тут детальніше. Основне те, що всі архітектури типу Transformer мають аналогічні властивості щодо зберігання даних („підготовка“) і виведення навчених даних.

Що потрібно для отримання інформації з моделювання КІ?

Кібернетичний модель без додаткової інформації є лише збиранням чисел, якщо його трохи спростувати. Звідси, ймовірно, не виникає жодного проблеми щодо захисту даних.

Вже ніхто не зберігає модель КІ без можливості володіти або мати бажання використовувати цю модель КІ. Для використання моделі КІ необхідні такі частини:

Токенізатор: Позначення програми, яке майже завжди можна завантажити у стандартній формі знову, якщо воно тимчасово було видалене.
Вокабуліар (фрагменти слів) для tokenizer: Текстовий файл чи файл, що містить переважно друкувальні знаки.
Модель AI: Список послідовностей чисел (коротка описова назва).
Трансформер: Програмний код, який здебільшого завантажується у стандартизованій формі будь-коли, коли він випадково стає втраченим.

Віртуальна збірка основних даних моделювання штучного інтелекту представлена нижче:

Ці дані надаються для того, щоб хто-небудь міг завантажити та використовувати модель AI GPT2. Основна файлова база називається pytorch_model.bin і має розмір близько 3,7 Гб. Файл vocab.json містить ті ж самі токени, що й вище описані. README.md файл містить інструкції щодо використання моделю. Інші файли з розширенням .json дуже невеликі та містять конфігураційні дані.

З КІ-моделлю справляється так само, як із архівом ZIP, в якому файли зберігаються у зкомпресованому вигляді. Ніщо не зберігає собі за мету зберігати ZIP-файли без можливості пізніше знову звернутися до них. Для цього потрібне спеціальне програмне забезпечення для роботи зі ZIP-архівами, яке може як створювати такі файли, так і розблоковувати їх.

Аналогічно з PDF-файлами: один може відкрити лише той, хто має програми для перегляду PDF. Такі програми можна завантажити будь-від куди. Аналогічно відбувається із кодом для Tokenizer та Transformer, а також зі словником для певного моделю AI. Моделі AI завжди пропонуються разом з усіма необхідними складовими або якщо ні, то разом із описом, де можна їх отримати.

Технічні деталі

Надзвичайно коротко можна згадати кілька технічних особливостей. У моделі КІ токени не тільки зберігаються простим чином. Вони містять також інформацію щодо розташування токенів.

Нижче наведений простий стандартний код програми, який демонструє, як можна завантажити підготовлене GPT-Model та отримати доступ до внутрішньої представлення токенів та їхніх позиційних даних:

from transformers import GPT2LMHeadModel #import library
model = GPT2LMHeadModel.from_pretrained('gpt2') # load AI LLM
Токен_ембеддинги = модель.трансформер.вте.вага # Токенізація Ембеддинги
position_embeddings = model.transformer.wpe.weight # Token Positionen Embeddings

Використовувана Python- бібліотека під назвою transformers є абсолютним стандартом і завжди можна завантажити з інтернету. Вона навіть відкрита під ліцензією вільного використання.

Коментарі наприкінці рядків починаються з попереджувальної квадратки та коротко пояснюють, що робить програмний код. Використовується тут модель GPT2, бо вона ще вільно доступна у порівнянні із її наступниками від OpenAI. Після завантаження моделі можна виконати оцінку. У прикладному коді для цього використовуються ваги як внутрішнє уявлення збережених в моделі токенів. Так само виводяться ваги для позицій між токенами.

Умисленим вказати запит у модель КІ та отримати відповідь можна використати такий код:

# Convert question into Token-IDs
input_ids = tokenizer(\["Are Cookies text files?"\], return_tensors="pt")
# Convert Token-IDs into embeddings
embeds = model.transformer.wte.weight\[input_ids, :\]
# Retrieve answer from AI LLM
outputs = model(inputs_embeds=embeds)
# Convert first answer into text
antwort = tokenizer.decode(outputs\[0\])
# Output the answer
print(antwort) #Result would be at best: "No, cookies are not text files"

Код демонструє окремі кроки, як запитати модель та отримати відповідь у формі, зрозумілій людині. Зазвичай програміст робить це трохи інакше, ніж показано в цьому прикладі.

Результат

КІ-моделі зберігають потенційно особисті дані, оскільки вони зберігають ціле слово, частини слів та поєднання слів (словесні початку та відповідні їм можливі кінці). У моделі КІ обов'язково містяться псевдонімні дані.

Сучасні мовні моделі КІ, такі як ChatGPT та інші трансформерні моделі зберігають дані навчання на рівні слів чи навіть речень потенційно у своєму первісному вигляді.
Слова зберігаються потенційно у компресованій (частіше, але й у непідкompresованій) формі, зрозумілій людині, речення у вигляді посилань на слова разом із інформацією про розташування.

Також мовні моделі штучного інтелекту здатні повторювати цілі речення за допомогою даних-вхідних вірно-слово, ця можливість хоча й не дуже надійна, але слід вважати можливою.

З даних моделі AI можна вийняти дані, використовуючи відповідні додаткові дані та бібліотеки стандарту. Без цих складових частина моделі AI не придатна і фактично вже не може бути названа моделлю AI.

Якщо КІ-модель працює локально на власному собовому сервері КІ, багато даних проблем можна зменшити. Висока продуктивність місцевих моделей особливо можливий при запит-відповідь асистентах, але також і при документних пошуковиках або генераторах зображень. При використанні моделей від третіх сторін, таких як OpenAI, Microsoft чи Google існує інше питання, що дані входу потрапляють звідки-не-звідки та ніхто не знає де.

Дахер рекомендують для конкретних завдань у компанії власні мовні моделі. Вони звичайно будуються на попередньо навчених, відкритих та ефективних моделях. Якість часто краще, ніж у ChatGPT, оскільки останнє система здатна виконувати все можливе і тому частково вважається особливо ненадійним, як прості дослідження показують (див. посилання).