Виховання моделей штучного інтелекту: що це таке?

Моделі мови AI та генератори зображень за допомогою AI є найбільш розповсюдженими типами моделей AI. Часто мова йде про навчання, попереднє навчання або тонування. Що означають ці терміни і чим вони відрізняються? Які дані та головним чином скільки необхідні для якоїсь операції

Вступ

Є КІ-модель — це електронний мозок, який складається з нейронного мережі. Він може бути запитаний і відповість на питання. Це можливо в певній мірі подібно до роботи людського мозку. Інші мають іншу думку. У будь-якому разі, навіть людський мозок ґрунтується на статистиці. Для питання, що таке інтелект, дивіться пов'язаний матеріал. ([1]) ([2])

Наприклад, різновиди моделей КІ такі:

КІ-Спрощений мовний модель, часто називається LLM (LLM = Large Language Model). Наразі вже існують ефективні SLMs (SLM = Small Language Model).
КИ-Білогенератор: З текстової вхідної інформації створюється зображення. Часто можна також створити нове зображення із тексту та попереднього зображення. Або декілька зображень можуть бути стилістично поєднані між собою.
Текст до мовлення: З тексту вхідного дані КІ-модель створює мовленнєвий результат
Мовно-Текстовий Переклад: З мови отримує КІ-модель текст (транскрипція)
Визначення об'єктів у зображенні або відео (сегментація)
Медичні прогнозувальні моделі

Нижче наведено лише на кращість мовлення та моделей зображень, які дуже часто зустрічаються в області КІ.

Є в основному два навчальні процесу для моделей КІ:

Pre-Training
Fine-Tuning (Фінальна налаштування)

В практиці майже немає додаткових навчальних процесів. Можливо ще один етап файн-тінінгу вже підготовленого моделю, що нарешті технічно аналогічний першому файн-тінінгу.

Що таке попередній тренувальний процес та чим він відрізняється від тонування на кінці? Нижче наведені уявлення про декілька варіантів:

Передпідготовка ("Створення") величезного великого мовного моделю, як наприклад ChatGPT-4
Передпідготовка невеликого великого мовного моделю (так, саме так прочитайте), наприклад, GPT-2
Докінчення моделювання за допомогою 1.
Докінчення моделі з 2.

Фалли 1 та 3 звичайно належать до компаній з штучного інтелекту. Другий випадок відбувається рідко або якщо, то для більш великих моделей ніж GPT-2, як наприклад Llama3-8B. Але навіть цей 8Б-модель створюється і надається звичайно компаніями зі штучного інтелекту.

Четвертий випадок практично здійснити будь-якою компанією. Цей матеріал стосується загалом підприємств, які хочуть ввести КІ або організації, що обслуговують такі підприємства.

Pre-Training

Передпідготовка означає навчання моделю КІ. Модель КІ ще немає. Вона буде попередньо навчена (pre-training). А потім вона вже є.

Часто говорять про "тренування". Тренування як термін у цьому контексті немає. Коли людина говорить про "тренування", вона має на увазі або попереднє тренування, або фінальне підлаштування залежно від змісту, який їй прийшов на думку.

Якщо людина говорить про тренування Custom-GPT, вона має на увазі файн-тюнинг. Якщо людина загалом говорить про тренування потужного мовного моделю, вона має на увазі попереднє навчання (приблизно: "Тренування ChatGPT-4 коштувало багато мільйонів годин обчислень", я прочитав).

Передпідготовка – навчання штучної інтеллектуальної моделі.

Це відповідає освітній підготовці дитини від народження до школи, яку здійснюють її батьки.

У разі сумніву слід припустити, що під «тренуванням» розуміється «передтренування», оскільки це мовно ближче до «фінітунінгу».

Для мовних моделей потрібні мільярди документів із текстом, щоб мова модель мала дуже добру якість. Документ звичайно є відділом однієї вебсторінки з інтернету.

Знані джерела даних:

Об'єднаний збір (CC) або C4 (Колосальний очищений Об'єднаний збір): бл. 700 ГБ даних, видалення багатьох вебсторінок із інтернету
Піле: 825 ГБ даних, відкритий код
Вікіпедія (у декілька мовах)
РефайнідВеб: Відредагована та очищена версія Common Crawl
Зірковий кодер: дані: бл. 780 ГБ даних для створення програмного коду. Джерелами є зокрема GitHub та Jupyter Notebooks (це спеціальні таблиці, подібні до Excel, але призначені для легкої створення подільного програмного коду).

За розміром мовного моделю часу навчання дуже різне (мільйони місяців) або лише кілька годин. Для дуже великих моделей КІ було витрачено мільйони годин GPU під час попереднього навчання. GPU означає графічний процесор. У високопродуктивному сервері для обробки даних розміщені 8 графічних процесорів за ціну близько 25 тисяч євро.

Дуже маленькі мовні моделі (GPT-2) ще кілька років тому не вважалися дуже малими та були золотим стандартом. Модель GPT-2 можна навчати протягом декілька годин, днів чи тижнів на власному сервері КІ або ноутбуці з КІ (вперед навчання = попереднє навчання). Тривалість попереднього навчання залежить від обсягу навчальних даних.

Якщо мова штучного інтелекту повинна бути дуже ефективною, то для неї будуть потрібні кілька терабайт (тисячі гігабайтів) рудих текстів як навчальні дані.

Для першого доброго старту досить йти сотні гігабайт, які швидко зібрані. Для цього навчання моделі штучного інтелекту (Pre-Training) триває лише обмежену кількість годин.

Як саме триває, залежить також від кількості ітерацій. Ітерація приблизно відповідає однієї класної групи. Відповідно до кількості класів, яких людина відвідує в школі, зростає ймовірність підвищення інтелекту. Так само як у людини, проте після певного часу подальші роки навчання вже нічого не змінюють. Результат навчання може бути знищений через надмірне попереднє навчання, а потім знову погіршитися.

КІ-модель, яка створена шляхом попереднього навчання, тобто навчалася, називається також основним моделлю або Foundation Model (FM). Основний модель можна використовувати для загальних завдань. чим більший розмір основного моделю, тим краще він може виконувати спеціальні завдання. Розмір моделі виражається у кількості його нейронних зв'язків. ChatGPT через свій величезний розмір також дуже добре рахує (хіба що краще за більшість людей на цій землі, які враховують помилки, зроблені як ChatGPT, так і людиною).

Fine-Tuning

Файн-Тюнинг також називають фейнтреніровкою.

Вимаганням для фінального налаштування є наявність існуючого моделю мовної мови КІ. Модель КІ вже існує після того, як вона була попередньо навчена (pre-trained). Тільки попередньо навчений модел КІ може бути підданий процесу фінального налаштування.

Файн-Тюнинг порівняно з навчанням, яке приєднане до навчання в школі.

Без освіти у вищій освіті не можна навчатися, а також вона не буде мати сенсу.

Кінцеве навчання є тоді розумним, коли модель повинна бути підготовлена для певної задачі. З кінцевим навчанням мовне моделювання буде продовжено навчання.

Можливо, мовний модуль не зможе добре підсумовувати тексти з початку. Це може бути тимчасовим явищем, наприклад, для лікарської клініки, яка використовує зовсім інше лексичний набір у лікарських листах, ніж воно закріплене в навчальних даних моделю AI.

Виправлення налаштувань покращує здатності підготовленого КІ-моделю щодо конкретної завдання. Ця завдання також називається Downstream-Task.

Залежно від завдання та призначення моделювання КІ, а також використовуваної математичної навчальної програми необхідна різна кількість даних для досягнення добрих результатів.

Для класифікації текстів можуть бути достатніми вже сто прикладів для успішного проведення фінальної підготовки. Якщо треба, щоб генератор КІ взяв на навчання стиль митця, то досить вже 10 прикладів. Після закінчення підготовки модель КІ починає створювати зображення, які міг би створити сам автор цих 10 прикладових зображень.

В цілому необхідні значно менше навчальних даних для файн-трейнінгу та навіть сенсорно, зовсім на відміну від попереднього тренування. Власне можна вважати, що кількість наборів даних для файн-трейнінгу перевищує 10 тисяч наборів дуже рідко. Значно менше цих 10 тисяч прикладів часто є досить розумним та необхідним. У кожного випадку все залежить від ситуації. Для повної відповідності згадується особливий випадок: Основний модуль піддається файн-трейнінгу з метою створення фактично покращеної версії основного модулю. Це відбулося, наприклад, із Llama3. Підготовлений для фінальної підготовки варіант отримав 64 тисячі наборів даних для навчання. Зазвичай такі дії здійснюють інші. Після цього ви можете використовувати покращені моделі так, ніби вони були створені з початку (передтренування).

Файн-тюнінг відбувається у практиці в підприємствах для малих мовних моделей. Малий означає не те, що це не було б "великим мовним моделлю" LLM, а саме відносини між "огромними" (ChatGPT) та "дуже добре працює LLM" (як Llama3-8B). ChatGPT має близько 1000 мільярдів нейронних зв'язків, тоді як 8Б-модель має лише 8 мільярдів. "В" означає "мільярда" англійською мовою.

Pre-Training versus Fine-Tuning

Нижче наведено коротке порівняльне зведення між попереднім навчанням та фінальним підлаштуванням. У цьому порівняльному зведенні також містяться особливості захисту даних та синтетичних даних. Синтетичні дані є штучно згенерованими даними, щоб збільшити обсяг навчальних даних. Ці дані отримуються шляхом використання моделей КІ!

Характеристика	Pre-Training	Fine-Tuning
Мета	Створення загального моделювання штучної інтеллекту	Виправлення існуючого моделю КІ для певної завдання
Аналогія	Виховання дитини своїми батьками + освітній процес у школі	Навчання в університеті або подальша освіта після школи
Кількість навчальних даних	Так багато якомога більше, часто мільярди даних	Часто досить буде 10 прикладів, а часто навіть 100. Вельми рідко їх буде більше ніж 10 тисяч або навіть більше.
Час виконання розрахунків	Для сучасних моделей багато мільйонів годин	Дуже мало годин до тижнів
Правила захисту даних	Навіть майже не дотримується	Зазвичай (тільки для даних тренувань високої складності) можна дотримуватися
Анонімізація можлива?	Навіть майже не	Так, дуже добре
Авторське право виконує свої обов'язки?	Навіть майже не	Так, дуже добре
Синтетичні дані сенсовані?	Тільки для необхідності або для вдосконалень всередині однієї моделі	Так, для множення навчальних даних та підвищення їхньої варіації

Різниці між попереднім навчанням та фінальним підлаштуванням моделей штучної інтеллекту.

Анонімізація навчальних даних для перепідготовки відбувається під ті ж умови, що й захист даних: усі дані, які вже були введені в базовий модуль під час попередньої підготовки, майже не можуть бути анонімізовані пізніше. У випадку правових даних ситуація ще гірша. Зазвичай людина не може побачити, чи це захищене працею іншого матеріал. При захисті даних можна часто встановити, чи стосуються вони певної особи.

Висновок

З погляду даних файн-тюнинг на кілька порядків краще контролюється ніж попереднє навчання. Це стосується тільки даних які потрапляють у процес фейнтюнінгу. Ініціальні дані для попереднього навчання вже збережені в моделі КІ та доступні для використання.

Попереднє навчання – це технічний виклик. З точки зору програмного забезпечення, це майже те саме, що й точне налаштування. Однак воно вимагає величезних обчислювальних потужностей і надзвичайно великої кількості навчальних даних.

Точне налаштування – це зовсім інше. Воно виконується за допомогою доступного обладнання споживчого класу і дуже часто вимагає мало або дуже мало навчальних даних.

Файнтренінг успадковує "мозок" зі збереженими початковими тренувальними даними та додає лише кілька нових даних. Ці декілька нових даних можуть бути дуже добре керованими згідно з ДЗНП. Проте залишається правопорушене базове моделювання, яке було підтримане фейнтренінгом, яке є правопорушеним моделлю фейнтренінгу. Правопорушені дані із базового моделювання забарвлюють усі подальші версії моделі. Нечуваний порушенням не може бути зроблений правовірним шляхом додавання чогось правовірного.

Синтетичні дані суттєво не поліпшують якість або захист даних у базовому моделі:

Також синтетичні дані можуть містити посилання на людину або роботу, захищену авторським правом. Ніщо дивного в цьому немає, адже їх попередником є справжні дані.
Якщо синтетичні дані отримуються шляхом зміни справжніх даних, може статися така ситуація, що виникнуть помилкові заяви щодо осіб. Це було б погіршенням правової ситуації в моделі мовлення AI.

У загальному сенсі можна сказати: моделі КІ є конкурентоспроможними лише тоді, коли вони отримали якомога більше та добрих навчальних даних. Таким чином, фактично всі доступні конкурентоспроможні закритий та відкритий код КІ мовні моделі формально порушують права. Зауважте, що навіть Містраль була тренована на даних із "відкритого вебу", як каже сама Містраль.

Навіть тривале прийняття використання чого-небудь формально незаконного, згідно з логікою правової науки, швидше за все призведе до того, що воно буде вважатися дозволеним або принаймні їхнє "незаконне використання" буде терпимість.

Інше питання – використання послуг хмарного типу, наприклад, ChatGPT або Azure. Для цього часто передають дані третіх осіб чи власні бізнес-секрети американським компаніям та їх національним спецслужбам.

Якщо аргумент щодо Datensicherheit не вистачає, йому слід запропонувати конкретні випадки застосування та використовувати для цього оптимізовану AI. Цей тип AI називається тут Offline-AI. Вона працює цілком самостійно, або на орендованому сервері, або власному сервері компанії і часто дає краще результати ніж загальні інтелекту, такі як ChatGPT.