DeepSeek є як незахищеним (хмарний додаток), так і дуже захищеним (модель з відкритим вихідним кодом). У цьому аналітичному документі про DeepSeek, підготовленому експертною групою зі штучного інтелекту ІТ-клубу Майнца і Рейнхессена, розглядається історія створення DeepSeek, додатку та різних моделей DeepSeek. Перш за все: кожна компанія може досягти більшого за допомогою ШІ з відкритим вихідним кодом, ніж за допомогою ChatGPT.
Що таке DeepSeek?
З "DeepSeek" головним чином називається вражаючий мовний модель R1, який був опублікований китайською компанією під назвою «DeepSeek». Моделі мови на основі штучного інтелекту також називаються LLMs, що означає "Large Language Model".
Те, що можливо з моделлю з відкритим вихідним кодом DeepSeek, в принципі також можливо з потужними моделями з відкритим вихідним кодом інших провайдерів (також з Європи).
З допомогою R1 DeepSeek вдалося створити мовний модель, який подібно добре працює, як «ChatGPT». DeepSeek для здивування всіх, бо їх аплікація через якість R1 швидко зламала всі рекорди та отримала найбільшу увагу.
Що робить DeepSeek таким особливим?
Внаслідок численної видатних властивостей DeepSeek AI-Маркет було дуже потрясено. ДепСік-апка була швидко перетворена у найчастіше завантажувану програму. Численні причини успіху:
Високий коефіцієнт інтелекту
Моделі DeepSeek можуть мати дуже велику кількість нейронів, але для виконання завдання їм потрібна лише частина з них. DeepSeek також винайшов складні методи навчання.
Більш ефективна підготовка та поведінка під час реагування
Діючи шляхом вибіркової активації експертів зменшується Рахунок витрат значно порівняно з моделями, нейронні мережі яких завжди повністю активовані.
Нижчі витрати
Дією селективної модульної архітектури витрати на експлуатацію значно знижуються порівняно з моделями, як-от ChatGPT від OpenAI.
Відкритий вихідний код та безпечний
Кожен може стати «OpenAI»: глибинні моделі DeepSeek є вільно доступними і можуть бути локально виконуваними. Локальна версія працює без жодного обміну даними. Нижче наведена графіка, яка це демонструє:

Моделі ШІ з відкритим кодом можна імплантувати в системи ШІ, просто завантаживши файл. Модель нікуди не надсилає жодних даних. Для аналогії уявіть собі текстовий файл, який не може ні з ким і ні з чим спілкуватися.
Опубліковано рецепт успіху
На додачу до всього, DeepSeek показав, як будь-хто може створити власну модель штучного інтелекту, щоб конкурувати з ChatGPT.
Що означає "DeepSeek"?
Термін "DeepSeek" часто використовується як синонім різних термінів, які мають різне значення:
| Term | Meaning | Properties |
|---|---|---|
| DeepSeek | Chinese company |
“AI recipe” given away, startup?, strokes of genius |
| DeepSeek R1 |
Powerful language model |
Open source, highly powerful, best data security |
| DeepSeek App |
Application for smartphones |
No data security, vaporized the stock market, based on R1 |
| Student models |
Smart LLMs with compact size |
Open source, best data security, R1 was the teacher |
Чи безпечно користуватися DeepSeek?
Додаток для смартфонів (хмарна версія)
Додаток DeepSeek вважається вкрай небезпечним. Його взагалі не слід використовувати, навіть у суто приватних цілях.
Open-Source Varianten
Моделі DeepSeek з відкритим вихідним кодом, включаючи зручні моделі дистилятів, можна завантажити і працювати повністю локально/автономно на вашому власному обладнанні. Як результат, вони забезпечують повну безпеку даних. Передача даних третім особам виключена. Це означає, що ШІ-моделі DeepSeek у версії з відкритим вихідним кодом більш безпечні, ніж хмарні рішення, такі як OpenAI або Microsoft.
Збережені знання
Величезна кількість знань про світ зберігається в кожній моделі штучного інтелекту через навчальні дані. Китайська компанія DeepSeek спотворила деякі факти з політичних міркувань і зберегла їх у сумнівний спосіб у своїй флагманській моделі R1. Зараз існують моделі, які це виправили.
У випадку з додатками ШІ, які запитують знання компанії, в таких поширених процесах, як RAG, перевага надається знанням компанії, а китайський імператив пригнічується і робиться нешкідливим.
What bedeutet „Mixture of Experts“?
Суміш експертів" (MoE) – це архітектура нейронних мереж, в якій кілька спеціалізованих підмереж ("експертів") існують паралельно, в той час як механізм маршрутизації ("воротар") вирішує, яких експертів слід активувати для виконання поточного завдання.
Трансформаторний підхід
Трансформатор – це широко використовуваний підхід ШІ для "розумних" моделей. У звичайних трансформних моделях усі параметри моделі використовуються для кожного запиту. Моделі MoE, з іншого боку, поділяють свої можливості на кілька спеціалізованих підмереж, кожна з яких оптимізована для конкретних типів вхідних даних або завдань.
Оптимізована архітектура
Коли модель МО отримує вхідні дані, вона спочатку використовує маршрутизатор (також відомий як "мережа воріт"). Маршрутизатор вирішує, які з доступних експертів найкраще підходять для цього конкретного завдання. Зазвичай активуються лише один або два експерти на токен, тоді як інші залишаються неактивними.
Інші моделі МО
DeepSeek не винайшла підхід МО (але вона створила інші інновації). Наприклад, французька компанія Mistral наприкінці 2023 року представила модель з такою архітектурою.
Як влаштований DeepSeek R1?
Моделі DeepSeek обробляють вхідні дані, активуючи лише кілька частин електронного мозку – так званих експертів – залежно від поставленого запитання.

відповідним експертам. Схему згенеровано за допомогою штучного інтелекту. (зображення було перекладено автоматично).
Ця архітектура пропонує кілька значних переваг над звичайними моделями зі щільною структурою і пояснює, чому моделі MoE, такі як DeepSeek-MoE, можуть бути дуже потужними при порівняно невеликих обчислювальних зусиллях. Цей принцип можна порівняти з людським мозком: коли ми говоримо, переважно використовується мовний центр, а інші частини майже або зовсім не активні.
Важливі компоненти моделі Міноборони
У таких моделях Міноборони, як DeepSeek R1, використовуються такі інновації:
- Мережа маршрутизаторів: Визначає, які експерти AI будуть активовані для якої частини вхідної інформації (Token).
- Експертні мережі: Спеціалізовані нейронні мережі, які кожного окремо навчаються на певних завданнях.
- Експертні ваги: Ваги, які обчислює маршрутизатор, що визначають, наскільки сильний кожен експерт внесе до кінцевого результату.
- Вагована сума: Об'єднайте витрати різних експертів відповідно до призначених від роутера ваг. Гляньте ще: Сумарна оцінка: Визначте загальну оцінку всіх експертів. Медіана: Визначте середнє значення усіх оцінок.
Підсумок
- Моделі штучного інтелекту з відкритим кодом стають все кращими та ефективнішими.
- Такі моделі, як DeepSeek R1, можуть працювати на доступному обладнанні.
- Локальні впровадження покращують якість результатів і заощаджують витрати, якщо їх використовувати більш інтенсивно.
- Додаток DeepSeek (хмарний) не можна використовувати за жодних обставин.
- Інструкції по створенню "ChatGPT 2.0" знаходяться у відкритому доступі і є безкоштовними для використання.
- Моделі з відкритим кодом створюють незалежність від хмарних сервісів і сторонніх додатків.
Про експертну групу зі штучного інтелекту ІТ-клубу
ІТ-клуб може продемонструвати концентровану ІТ-експертизу. Експертна група зі штучного інтелекту надає підтримку практичними пропозиціями та рекомендаціями щодо технічних і юридичних аспектів. Основна увага приділяється індивідуальним рішенням для інтелектуальних помічників зі штучним інтелектом та цілеспрямованому подальшому навчанню.
Про ІТ Клуб
IT Klub Mainz & Rheinhessen був заснований з метою представлення галузі для компаній регіону. Як мережа, ІТ-клуб пропонує своїм членам передачу знань, підвищення кваліфікації, просування молодих талантів та маркетинг локацій.
Randnotiz
Ця стаття була створена за допомогою ШІ як витяг з PDF (але не тільки за допомогою ШІ).
Уривок тексту для цього допису, який бачать лише пошукові системи, називається "фрагмент". Він також був створений за допомогою ШІ.
Зображення для статті було створено за допомогою ШІ. Дві діаграми також згенеровані за допомогою ШІ.
PDF-файл для завантаження, за винятком контенту, також був створений за допомогою ШІ:

Ця міні-ілюстрація "Створення за допомогою штучного інтелекту" також була створена за допомогою штучного інтелекту. Поступово стає нудно (але в позитивному сенсі!) …
Той, хто говорить про АІ, пропонує АІ-консалтинг і АІ-рішення, повинен сам використовувати АІ. Це саме те, що відбувається тут. У наступних статтях будуть наведені інші приклади, наприклад, високоефективна генерація програмного коду за допомогою АІ-помічників (АІ-програмування).



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.