DeepSeek-R1: невелика мовна модель випаровує фондовий ринок

За допомогою ШІ-моделі DeepSeek-R1 Китаю вдалося присоромити американців. DeepSeek-R1 значно ефективніший за ChatGPT від OpenAI. Навіть супермаленькі відгалуження R1 майже не поступаються OpenAI o1 у важливих бенчмарках. Фондовий ринок відреагував шоковою хвилею. Люди навіть не зрозуміли, що вже існує інша модель DeepSeek.

Вступ

Всі знають ChatGPT. Всі знають DeepSeek щонайпізніше з "учорашнього дня". Зокрема, інвестори в акціонерний капітал, швидше за все, зрозуміли, що щось сталося на ринку ШІ.

DeepSeek виклав у вільний доступ проект, який може зробити OpenAI непотрібним.
Це продемонстрували DeepSeek-R1 та його дистилятні моделі.

OpenAI тримає свою топ-модель ChatGPT (включаючи o1, o3 і т.д.) в секреті в нових версіях і приховує деталі про неї від громадськості. DeepSeek, компанія з Китаю, з іншого боку, видає свою топ-модель, роблячи її публічною. Дуже шкода OpenAI, яка хотіла заробити на ChatGPT, але, ймовірно, ніколи не вийде в зону прибутку.

Фокус-документ про DeepSeek (PDF)

Кошти на створення DeepSeek-R1 були дуже нижчими, ніж у будь-якій новішій версії ChatGPT. Крім того, R1 можна самостійно експлуатувати навіть середніх підприємств. Малі варіанти працюють навіть на ноутбуках. Самостійне експлуатація означає: вони завантажують модель R1, копіюють її на свій сервер КІ (або ноутбук), потім вимикають інтернет-зв'язок, коли це необхідно, і можуть працювати цілком самостійно зі своїми КІ.

ШІ-моделі DeepSeek можна завантажити і запустити автономно на власному сервері або ноутбуці.
Це дуже корисно для багатьох застосувань.

Наскільки хороший DeepSeek-R1?

Кваліфікація моделювання штучного інтелекту відбувається шляхом перевірки бенчмарків. Це стандартизовані запитання до моделі. Як добре моделювання штучного інтелекту працює для конкретної справи в вашій компанії, можна лише шляхом (простого, швидкого) експериментування для цієї справи встановити. Ви повинні просто знати, чому ви плануєте використовувати штучний інтелект.

Бенчмарки дають дуже гарне уявлення про те, наскільки якісною є модель сама по собі. Ось результати тестів, опубліковані самим DeepSeek:

Vergleich von DeepSeek-R1 (3 Versionen) mit OpenAI o1 (Version 1217) und OpenAI o1-mini. Quelle

Ліва смужка – це смужка DeepSeek-R1, друга смужка – це смужка еталонної моделі OpenAI o1. Як бачимо, R1 нічим не поступається o1. Згадані бенчмарки є стандартними. Розглянемо їх докладніше:

AIME 2024: Mathematikprobleme
Codeforces: Завдання з програмування
GPQA Діамант: GPQA означає Ступінь бакалавра Google-підкріплена оціночна база запитань. Множинний вибір питань
MATH-500: Математичні висновки
ММЛУ (Measuring Massive Multitask Language Understanding): Множкові вибори із багатьох галузей знань

Умка запитання на початку відповісти: DeepSeek-R1 явно дуже добре працює. Модель має деякі вмісні зміни знань. Критичні політичні питання вона відповідає так, як це подобає Китаю. Модель не повинна розглядатися як чатбот. У цьому сенсі ця деталь хоча й несприятлива, але з технічної точки зору часто без значення.

Вища якість DeepSeek була підтверджена деякими користувачами. Тут є переклад з англійської на німецьку звіт тестування, який порівнює R1 та OpenAI o1 (ніж нижче як цитата):

Для логічного висновку R1 набагато краще будь-якого попереднього SOTA-моделю до o1. Він краще, ніж о1-preview, але на один рівень нижче від o1. Це також підтверджується в тесті ARC AGI.
Математика: Для математики теже саме: R1 є вбивцею, але о1 краще.
Кодування: Я не зміг багато грати, але на перший погляд воно рівно так само як o1, і те, що воно коштує 20 разів менше, робить його практичним переможцем.
Написання: Тут R1 бере керівництво. Він передає ті ж враження, що й ранній твір. Він вільний, менше цензурний, має багато особистості, легко керується і дуже творчий порівняно з іншими моделями, навіть порівняно з o1-pro.

Курс на майбутнє

Будь-хто, хто стежить за розвитком сектору штучного інтелекту, помітить кілька речей:

Моделі штучного інтелекту стають все кращими і кращими.
Кращі моделі ШІ стають все меншими і меншими (їх вже важко назвати "великими", як зазначено в розділі "Великі мовні моделі").
Методи навчання створенню ШІ-моделей стають дедалі складнішими.
Невеликі існуючі моделі ШІ можна легко зробити набагато кращими, звернувшись до нових моделей.
Лікування швидкості є підміною для позначення швидкості розвитку.

Всі ці речі для OpenAI EXISTENCIALNE ПРЕДМЕТИ РИЗИКУ.

Але ще важніше ця пізнання: за допомогою так званого Reinforcement Learning (підсилювального навчання) можна значно покращити зовсім інші маленькі вже існуючі моделі КІ. Для цього беруться відповіді, які надає головний модуль R1 на поставлені запитання та підгодовують їх у менші Студентські моделі. Інтелект цих учнів отримує величезний імпульс і може самостійно краще мислити та робити висновки. DeepSeek описала рaffinierte метод (емерджентна самовідчування), яким особливо добре це працює. ([1])

Так що відкриті джерела моделей, як Qwen-2.5 та Llama-3.1, які вже були дуже добрими, могли бути ще краще зроблені. З мінімальним витратами часу. OpenAI має інвестувати багато часу, енергії та грошей, щоб досягти кращих результатів. Під час роботи OpenAI є секретним джерелом інформації, тоді як описані раніше прогреси відбуваються у відкритому доступі та для кожного вільно доступні.

Лист Тестовий звіт DeepSeek-R1 приблизно на 30 доларів дешевше у використанні, ніж OpenAI o1 і близько 5 разів швидше за o1. Дещо ще дешевше, якщо ви хочете інтенсивно використовувати R1 та працювати на власному сервері. Крім того, існують варіанти R1, які навіть можна запустити на ноутбуці (або навіть на смартфоні).

Відгалуження DeepSeek-R1

Як видно на малюнку вище з бенчмарком, є й інші моделі від DeepSeek:

DeepSeek-R1-32B
DeepSeek-V3

DeepSeek-V3 було випущено наприкінці грудня 2024 року, тож він уже застарів (див. "Швидкість світла"). Він послужив основою для R1.

DeepSeek-R1-32B – це відфільтрована версія DeepSeek-R1, яка має 685 мільярдів параметрів (685B). Відфільтровану версію можна виконувати на доступному сервері КІ. Відфільтрований означає, що це екстракт з більшого моделю. Примітка: різні джерела DeepSeek вказують один раз 685B і один раз 671B параметрів.

Навколо цього одного екстракту, DeepSeek-R1-32B, є ще інші варіанти, які всі на більш дешевій апаратній основі можуть бути виконані самостійно. Для інформації для тих, хто все ще хоче використовувати ChatGPT для автоматизації процесів.

Варіанти DeepSeek-R1 (станом на 28/01/2025):

DeepSeek-R1-32B: Вторинна модель від еталонного зразка. Це стосується DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-1.5B

Існує також DeepSeek-R1-Zero, яка має такий самий розмір моделі, як і основна модель. Нульова модель пройшла менше процесів навчання, ніж основна, тому вона трохи гірша (але все одно краща за все, чого вдалося досягти OpenAI з розумним бюджетом).

Хоча основна модель, DeepSeek-R1, має 685 мільярдів параметрів, лише 40 мільярдів з них активні в будь-який момент часу. Це так звана архітектура Mixture-of-Experts (MoE). Це як у людини: З усіх нейронів вашого мозку не всі активні, коли ви думаєте. Скоріше, лише невелика частина нейронів активна, наприклад, коли ви говорите. Решта нейронів у вашому мозку відпочивають і не потребують активності.

DeepSeek-R1 є "маленьким", тому що під час мислення йому доводиться використовувати лише невелику частину своїх численних нейронів одночасно.
Це надзвичайно економно витрачає ресурси.

Менша кількість одночасно активних нейронів означає, що R1 може працювати на менш дорогому обладнанні. Тут OpenAI має бути соромно. Це тому, що моделі OpenAI вимагають серверної інфраструктури, яку неможливо уявити. R1, з іншого боку, може працювати на будь-якому малому і середньому підприємстві з розумними фінансовими ресурсами.

Дистиляти з R1 створюються шляхом так званої дистиляції знань. Для цього основну модель беруть за вчителя і ставлять запитання учневі. Це аналогічно тому, як дитина вчиться у своїх батьків, за винятком того, що до певного віку дитина (часто) значно менш розумна, ніж батьки.

Кожен дистилят був створений на основі існуючого LLM. Одного разу використовували Llama-3.1-8B від Meta або Llama-3.3-70B-Instruct від Meta. Інші дистиляти засновані на різних варіантах моделі Qwen-2.5 від Alibaba.

Можливості та ризики

Здається, що все кращі і кращі моделі ШІ публікуються з постійно зростаючою швидкістю. OpenAI стає застарілою моделлю. ChatGPT, OpenAI o1 і всі інші моделі стають все кращими і кращими, але також все дорожчими і дорожчими.

OpenAI тримає свої моделі, алгоритми та дані в секреті. DeepSeek робить все навпаки. Конвеєр навчання є публічним. Моделі публічні і їх можна завантажити. Ми запускаємо модель DeepSeek на ноутбуці зі штучним інтелектом. На ноутбуці!

OpenAI зруйнований і не принесе очікуваного прибутку.
Моделі з відкритим кодом – це майбутнє.

ДеепСік-моделі дуже добре працюють. Вони знищили цінні папери. Крім того, у сфері енергетики („Siemens Energy: 20-процентний крах – фантазія КІ пішла?“, повідомлення від 27 січня 2025 року), оскільки такі невеликі моделі, як ті, що належать до DeepSeek, можуть працювати на „дешевшій“ апаратній, тоді як OpenAI витрачає енергію. Інвестор Марк Андреєсен прокоментував: "DeepSeek є однією з найбільш приголомшливих і вражаючих проривів, яких я коли-небудь бачив – і як відкритий код, глибокий подарунок світу" (Джерело: ненависне мережі із літерою перед Y).

Для чого можна використовувати DeepSeek?

Ні в кого не повинно виникнути ідеї використовувати DeepSeek у його первісному вигляді як чат-бота. Однак, знання про Китай можна зробити нешкідливими.

Наступні випадки використання важливіші, ніж нудний чат-бот (уривок):

Пошук і перевірка знань про компанію
Аналізуйте рахунки-фактури відповідно до законодавства про ланцюги поставок і розраховуйте викиди CO₂
Автоматично створювати рекомендації щодо вирішення тікетів підтримки
Автоматична класифікація повідомлень, текстів та інших документів
Робіть логічні висновки автоматично
Розв'язуйте математичні задачі
США.

Це саме те, що тепер може відбуватися повністю без OpenAI, і так само добре, як і з OpenAI.

Загибель OpenAI

Робота зі штучним інтелектом без OpenAI має кілька переваг:

Часто кращі результати
Передбачувані та завжди низькі витрати
Повний захист даних
Повна незалежність
Можна оптимізувати за бажанням
Стратегічно цінні

На OpenAI чекає дуже складне майбутнє. OpenAI не може вирішити цю проблему за допомогою кращих моделей ШІ, тому що DeepSeek & Co. постійно публікують все кращі і кращі моделі ШІ у вигляді відкритого коду.

OpenAI	DeepSeek (and others)
Large models	Small models
Closed-Source	Open-Source
Getting better, bigger, and more expensive	Getting better, smaller, and cheaper
Slow release cycles	Light speed
Progress through money and the most expensive personnel	Progress through a huge open source community
Operation: Energy problem, hardware problem	Operation on standard AI servers or laptops

OpenAI скоро настільки застаріє з точки зору якості, що йому доведеться шукати собі іншу сферу діяльності. Ознаки цього були вже кілька місяців тому, але ніхто не хотів їх бачити. На математичній олімпіаді з ШІ, наприклад, перемогла модель ШІ з відкритим вихідним кодом.

Лише інтеграція пошуку в Інтернеті, автоматизація браузерів або OpenAI Operator – це лише половина того, на що варто звернути увагу. Однак будь-який кращий програміст ШІ може запрограмувати і такі системи, оскільки вони базуються на вільно доступних стандартних технологіях. Це означає, що OpenAI залишатиметься цікавим щонайбільше для окремих користувачів, які будуть раді отримати хорошу функцію за певну плату за дані. Сумнівно, що OpenAI зможе покрити свої величезні витрати на обладнання, енергію та персонал.

Світ у країні сну

Увага: вже існує нове моделювання DeepSeek: Janus-Pro. Janus-Pro – двоголовий модуль, щоб залишитися у назві «Janus», яку обрали DeepSeek. Janus-Pro є генератором зображень та візуальним інтерфейсом. Ви можете замовити створення зображення або завантажити зображення в Janus і задавати запитання щодо зображення.

Фондовий ринок випарував DeepSeek-R1, а не Janus-Pro.

Звістка про R1 прийшла у світ із запізненням, як у кам'яному віці (приблизно через 7 днів після публікації моделі). На момент обвалу фондового ринку Janus-Pro вже існував, але ніхто про це не знав. Таким чином, ви більш поінформовані, ніж більшість.

Янус-Про за підсумками бенчмарків кращий ніж DALL-E 3, але такий малий, що влітає у чашечку (або працює на ноутбуці).

Геній R1

Є чимало іншого, ніж те, що з R1 було опубліковано суперекспресивне моделювання, яке створює конкуренцію OpenAI. Це стосується того, що була опублікована блаупауза для створення подібних моделей. Всі дослідники КІ світу тепер знають, як створити кращі моделі ніж o1. А ще цього не вистачає: ці моделі є більшими, краще виконують свої функції, дешевші за порівняльні моделі OpenAI та вільно доступні для використання та копіювання.

Якщо OpenAI у майбутньому коли-небудь заробить прибуток, то лише завдяки Суперінтелекту. Тоді ж ми матимемо інші проблеми ніж вирішення, яку КІ використовувати для автоматизації своїх процесів компанії. Для цього Суперінтелекту доведеться вийти протягом декількох років. Інакше OpenAI до того часу вже скоріше буде банкрутом або застарілою технологією.

Як хтось сказав у коментарі на форумі зі штучного інтелекту:

Цього року (2025, кінець січня) вже було досягнуто більшого прогресу в галузі ШІ, ніж за весь 2024 рік.

Можливо, це невелике перебільшення, але, мабуть, воно не дуже далеке від реальності. З кожним тижнем це твердження стає все більш точним або навіть применшенням.

Хто зараз ще не дуже добре подумав про автоматизацію процесів у компанії за допомогою КІ, або ніколи на це не був готовий, або використовує комп'ютери тільки для створення рахунків (майстри тощо). Для відділів розробки програмного забезпечення КІ дуже цікава!