Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

АІ: Яка мовна модель найкраща?

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Стаття у форматі PDF (тільки для передплатників новин)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Нова мовна модель (LLM) нещодавно викликала неабиякий ажіотаж. Вона отримала найвищий бал у популярному бенчмарку і навіть виявилася значно кращою за ChatGPT-4 Omni, поточну преміум-модель від OpenAI. Але яка мовна модель насправді найкраща?

Вступ

З допомогою Орієнтир AlpacaEval тестують нові мовні моделі. Так звана Win-Rate вказує на те, як добре LLM виступає під час тестування. Тут перші місця серед відомих моделей:

На першому місці знаходиться GPT-4 Omni від OpenAI з виграшною часткою 57,5 %. Ця частка вважається довжинно-коригованою („LC Win Rate“). Це означає, що довжинно-кориговані виграшні ставки зменшують вплив довжини на GPT-4. Таким чином, враховується те, що GPT-4 вважається фаворитом і має кілька особливостей, які б підвищили його виграшну частку порівняно з іншими моделями без коригування.

Тепер перейдемо до менш відомих мовних моделей від спільноти. Рейтинговий список для моделей спільноти має такий вигляд:

Як бачимо, на першому місці знаходиться модель з назвою NullModel. Вона має LC Win Rate 86,5 %. Для порівняння, ChatGPT-4 Omni має лише 57,5 % (16-те місце в рейтингу, який також включає моделі спільнот).

Даний бенчмарк не є добрим представником завдань з інтелектуальної власності, які виникнуть у вашому підприємстві чи організації. бо саме на завдання залежить комес дуже багато. Бажані моделі краще розуміють питання, інші краще роблять висновки, а ще інші краще сумарюють або перекладають тексти.

Вперше ж але важливо для німецьких підприємств, що Німецька звичайно є основною мовою в підприємстві та у текстових документах. Бенчмарки проте звичайно оптимізовані для англійської мови або інших мов, як китайської чи індійська.

Особливість переможця тесту

Таким чином, сам по собі бенчмарк є радше індикатором, ніж надійним твердженням.

Нині є особливість із переможцем, NullModel: він вміг підкинути результати. Але найгірше ще попереду: мовне моделювання NullModel завжди повертає тільки одну відповідь на всі питання, які ставлені в лабораторному випробуванні. Код для цього навіть відкритий доступу.

Нульовий модель займає перше місце в результатах тесту, хоча він завжди той самий відповідь на всі поставлені запитання. Питання мають зовсім різні правильні відповіді. Якщо б усі правильні відповіді були «Так», то ні про що не варто хвилюватися.

У справжньому сенсі дуже багато різних відповідей на багато запитань у Бенчмарку є правильними. Проте, Бенчмарк надає Найвищу оцінку для LLM, яке завжди відповідає однією й тією ж відповіддю.

Таким чином, бенчмарк був обманутий.

Яка найкраща мовна модель?

Юрист сказав би: "Це залежить. Це залежить від заяви.

Якщо ви не знаєте, для чого буде використовуватися система штучного інтелекту, у вас виникають зовсім інші проблеми, ніж пошук найкращої мовної моделі. Звичні моделі, показані на першій ілюстрації, дуже добре підходять для загального чат-бота.

Якщо знання треба взяти з інтернету, ChatGPT часто не справляється. Причина полягає в тому, що низькокостовий систем (з погляду користувача, який часто також платить за свої дані) не може виконувати необмежену кількість пошукових дій у інтернеті за одне запитання. Для OpenAI це було б просто неприйнятно. Як можна зрозуміти підхід Anthropic та їх Computer Use-підхід, це швидко стає дуже дорогим. За завдання, яке вимагає дослідницької роботи, можуть зібратися навіть 20 доларів за годину. Наприклад, не відомо, скільки часу потрібно для отримання результату після того, як користувач відправив завдання КІ.

Найкращою мовною моделлю для кейсу використання у вашій компанії є добре підготовлений LLM.

Деякі рекомендації щодо мовних моделей допомагають правильно налаштувати та запустити стратегію ШІ.

Розмір мовної моделі

Як правило, чим більш неопределена задача, тим більші розміри LLM повинні бути. Максимальним прикладом є ChatGPT. Цей модуль такий величезний, що обладнання для його роботи коштує мільйони євро (і ще більше за рахунок OpenAI, оскільки більше ніж 10 користувачів використовують цей сервіс).

ЧатГПТ може відповідати на будь-які запитання та часто надає дуже добре результати. Однак навіть прості питання іноді не можуть бути правильно відповіднані. Так, наприклад, ЧатГПТ не може точно визначити кількість літер "р" у слові Strawberry. Крім того, ЧатГПТ також використовує фальшиве знання, яке збережено в LLM. Наприклад, Ілюзії можуть виникнути саме з цього приводу.

Розмір мовної моделі задається в мільярдах параметрів. Один мільярд дорівнює 1 B (B = мільярд). Параметр – це зв'язок між двома нейронами в нейронній мережі.

Малі мовні моделі, як наприклад Llama3.2-1B, добре підходять для мобільних пристроїв або загалом для високої швидкості відповідей. Але під цим страждає якість відповіді. Загальні питання часто досить добре відповідаються на. Коли запитання ставиться німецькою мовою, ситуація виглядає зовсім інакше, тобто гірше. Німецька граматика тут не досить оцінюється.

Менші мовні моделі, такі як 7B чи 8B, часто володіють дуже добрим знанням німецької мови. Вони можуть підсумовувати тексти, генерувати ідеї або перекладати тексти. На стандартному сервері AI виконання відбувається досить повільно.

З допомогою зменшених моделей можна підвищити швидкість inferenz. Якість страждає лише мінімально.

Найкращі моделі КІ — ті, що вбудовані у Система штучного інтелекту і виконують конкретні завдання. КІ-система — це щось на зразок рамкової програми, яка містить не лише частину КІ, а й звичайну логіку. Чому повинна мова модель рахувати кількість літер в одному слові, якщо класичний програмний код може виконати це набагато швидше та краще, тобто із 100% точністю?

Наприклад, завдання для конкретної задачі може бути AI-асистент для відділу кадрів. Кандидат надсилає свій резюме на оголошення про вакансію спеціалісту з персоналу. Спеціаліст із персоналу хоче тепер знати, як добре резюме кандидата відповідає вимогам, які вказані в оголошенні про вакансію (хоча б вони були). КІ-асистент порівнює тепер резюме з оголошенням про вакансію. Система навколо порівнює резюме та наведені у ньому здібності з декількох сторін: які потрібні знання добре виконані, а які ні? Які видатні якості має кандидат загалом, які можуть бути цінними для будь-якого підприємства

Зокрема, беруться до уваги деталі: інформатик не повинен вказувати в своєму резюме, що він володіє JSON. Він either вже має або вивчає протягом 5-45 хвилин. Таке щось навіть ChatGPT не може знати. Але спеціальна комісія знає про це і може передавати цю інформацію у систему AI.

А також КІ-асистент для відділу кадрів міг виконувати онлайн-розвідку щодо кандидата та представляти результати працівнику відділу кадрів для огляду. Це теж не можна зробити за допомогою моделі AI. Система AI, яка є навіть і ChatGPT, цього робити не зможе для вас. У будь-якому разі ні за 22 євро на місяць, ні за кілька центів за запитання. OpenAI не хоче розшукувати інтернет широко, бо ви або зовсім не бажаєте давати гроші OpenAI, або вже починаєте задумуватися щодо своїх витрат навіть при 50 євро.

З допомогою Точна настройка мовні моделі можна підлаштовувати до конкретних завдань. Результати майже завжди краще, ніж ви б досягли з ChatGPT або будь-якою іншою універсальною інтелектністю. Такі добре треновані моделі можуть бути дуже малими. Отже, швидкість inferenz може бути дуже високою.

Інші моделі, крім LLM

Класичні мовні моделі – це, мабуть, найпоширеніші моделі ШІ. Але їх існує набагато більше.

Наприклад, існують так звані Сафґард-моделі. Ці LLM призначені лише для перевірки вхідних даних користувача або виходів іншого мовного моделю. Вміщує вхід дані вимогу щодо порушень права? Вміщує вивід дані інструкції щодо виготовлення бомби?

Для класифікаційних завдань краще підходять інші типи моделей ніж LLMs. Ви хочете наприклад визначити, яку саме вид листа людина відправила вашій компанії. Це була запитання? Це була скарга? Це була звільнення? Або бажання лише вказати контактну особу? Для цього тренується класифікатор. Це відносно невеликий зусилля, але воно дуже багато дає.

Для підтримки менш досвідчених працівників дуже добре підходять Векторні пошукові машини. Клієнт компанії, що займається орендою автомобілів, повідомляє про збиток за допомогою електронної пошти або програми. Працівник компанії повинен тепер вирішити, як обробляти збиток. Асистент AI шукає найбільш подібні випадки з минулого та представляє працівникові рекомендації щодо найбільш ймовірного кроку. Таких історичних даних дуже багато у страхових компаніях.

Біломоделі загалом відомі. Вони виконують добрі до дуже добрі послуги. Але краще працюють спеціально підготовлені біломоделі або Адаптери. З їх допомогою можна створювати зображення за вашою вимогою (стиль, настрій, колірова гамма, мотив). Наприклад:

Ви неодмінно зможете з'ясувати, яким був шаблон для цього типу зображень. Кількість прикладів для навчання адаптера зображень може бути дуже невеликою. Часто достатньо 8 або 15 прикладів, в залежності від розмаїття графічного матеріалу. Кількість прикладів можна збільшити шляхом синтетичного доповнення.

Для Аудіотранскрипція вже існують видатні моделі Whisper. Вони надають значно краще результати ніж стандарт Microsoft у Teams. Такий висновок зробив тест із захистом даних видавництва. Для порівняння була використана транскрипція з Microsoft Teams та власна AI-система Dr. GDPR. Власне AI-система враховує спеціальне підприємницьке словниково, яке також містить прізвища. Ні один чоловік не знає чи написано Шмітт із однією або двома "t" чи з "dt", а тим більше це може зробити AI.

Приклади моделей ШІ та їхні можливості

На кількох прикладах буде продемонстровано, як розмір моделі, актуальність моделі та тип вхідних даних (текст, зображення, …) впливають на якість відповіді:

  • Llama3-7b: Погана за сучасними стандартами, але чудова на момент випуску; може добре працювати на власному обладнанні
  • Llama3-1:8b: Дуже добре підходить для багатьох завдань; може добре працювати на власному обладнанні
  • Llama3-70b: добре або дуже добре для багатьох завдань, але частково гірше, ніж новіший Llama3.1:8b; може працювати тільки на дорогому обладнанні
  • Llama3.1-70b: Дуже добре підходить для багатьох завдань; кілька недоліків для німецької мови; може працювати належним чином лише на дорогому обладнанні
  • Llama3.1-405b: ще кращий за Llama3.1:70b, але не обов'язково для німецької мови; може нормально працювати лише на дуже дорогому обладнанні
  • Llama3.2-3b: добре, але гірше, ніж Llama3.1:8b, але відповіді швидші

Окрім цих LLM, існують й інші типи моделей. Ось кілька прикладів:

  • Pixtral-12B: Дуже добре підходить для опитування зображень. Прийнятні вимоги до апаратного забезпечення
  • Qwen2.5-72B: Дуже добре підходить для генерації програмного коду; може працювати лише на дорогому обладнанні
  • FLUX.1-fast: іноді дуже хороші результати при створенні зображень, але часто неадекватні при створенні німецьких текстів на зображенні; також може розумно працювати на дешевшому обладнанні за допомогою хитрощів

Тому якість результатів варіюється залежно від тематики та розміру моделі. Текст, як правило, вимагає точного виводу, за винятком творчих завдань. Ситуація з зображеннями часто відрізняється.

Результат

Визначте свій сценарій використання. Якщо ви не уявляєте, де ШІ може вам допомогти, то він вам не потрібен. Замість цього, як завжди, скористайтеся пошуковою системою.

Почніть з простого варіанту використання. Якщо ви не впевнені, що може бути простим, запитайте поради.

Чим менша модель штучного інтелекту, тим більш конкретним має бути сценарій використання. Дуже великі моделі, такі як моделі з параметрами 405B, зазвичай не повинні експлуатуватися вашою компанією самостійно. Навіть якби ресурси були доступні, зазвичай є кращі варіанти.

Модель 70B, така як Llama3.1-70B, вже досить велика для самостійного використання. Це лише приблизний орієнтир, щоб дати вам уявлення. Краще використовувати моделі розміром не більше половини цього розміру.

Для завдань, які не потребують генеративних відповідей, є кращі варіанти, ніж відомі "всім" моделі ШІ. Ці моделі ідеально підходять для пошуку знань у документах вашої компанії. Вимоги до апаратного забезпечення також настільки низькі, що нікому не доведеться думати про ціни на покупку або оренду. Семантичний пошук, тобто порівняння текстів або зображень (або аудіо, або …), є ще одним прикладом розумного початку ери ШІ.

Верши свої свою КІ, треба собі дуже мало чи ніяких проблем щодо безпеки даних робити. Дуже мало проблем тоді, коли сервер GPU в Німеччині орендується у німецького провайдера з DPA і зовсім ні, коли власний сервер знаходиться у вашому центрі обробки даних або орендований за допомогою Colocation.

Власна КІ означає: повна контроль над даними. Дані нікуди не ідуть, якщо ви цього не хочете. Дані нікуда не беруться, якщо ви цього не хочете. Лише користувачі мають право отримувати доступ до документів за допомогою КІ, яким вони володіють. Це називається Offline-AI.

На завершення: Яка мовна модель або інша модель ШІ найкраще підходить для вашого випадку використання, слід оцінювати, виходячи з конкретного випадку використання. Щотижня з'являються нові інновації та моделі ШІ. Тому варто придивитися до них уважніше.

Основні тези цієї статті

NullModel є "найкращою" моделлю в бенчмарку, але вона завжди дає однакову відповідь на всі запитання, що не дуже корисно. Найкраща мовна модель залежить від програми.

Для простих запитань більше підходять менші мовні моделі, такі як 7B або 8B, оскільки вони часто краще володіють німецькою граматикою, ніж більші моделі.

Асистенти штучного інтелекту можуть шукати історичні кейси, щоб рекомендувати найкращий курс дій.

Почніть з простого додатку, наприклад, семантичного пошуку в документах компанії.

Про ці основні твердження
About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

ШІ для фотоагентств і креативників