Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Синтетична інтелект: Німецькі тексти в моделях мови КІ

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Стаття у форматі PDF (тільки для передплатників новин)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Документні пошукові системи, чат-боти, мовні асистенти, системи запитань та відповідей: всі вони можуть бути підготовлені для української мови, яка є однією з найбільш поширених мов світу. ЧатGPT не надає точних відповідей. Надійливі КІ-моделі мови українською можливі, хоча існують деякі особливості, такі як мова жіночого роду.

Вступ

Використання КІ у підприємстві суттєво відрізняється від особистого використання ChatGPT, Microsoft Bing, Google Bard або інших систем від даних-краю.

Підприємства здавна відмовляються від своїх даних разом із господарськими таємницями, патентними свідоцтвами, даними співробітників, даними клієнтів, угодами або іншими конфіденційними даними. З іншого боку, у майбутньому більше даних будуть надані іншим організаціям згідно з Датською політикою управління (DGA) ЄС, яка набула чинності в вересні 2023 року відповідно до свого законодавчого характеру.

Також вимагання від правильних відповідей чат-ботів чи інших мовних систем КІ значно вищі, ніж у приватному середовищі. Це стосується лише зовнішнього світу, а не творчого простору. Найвищий клас – це юридичні питання, які сучасні, але загальновизначені системи, такі як ChatGPT та Bing-AIвід Microsoft, не можуть добре відповісти на них (джерело: див. посилання). Також адміністрації, які здійснюють послуги для громадян, не повинні опиратися на непідвладні чат-боти, серед яких є також ChatGPT.

Гендер-двойной крапок підходить для зневаження навчальних даних для мовних моделей.

В особливості тому, що двоточие звичайно є знаком кінця речення.

Сама запропонована та недавно опублікована функція автокоректування Google Bard не працює правильно, як показало практичний текст після більш детного розгляду.

Навіть більше складно роблять мовним моделям штучного інтелекту, коли в навчальних даних граматика часом розсіюється через мову ґендеру. Крім того, ґендерний двокрапка забезпечує те, що цілі речення у текстах зовсім не завжди більше розпізнаються.

Німецька мова у світовому порівнянні є стійкою матір'ю, яка була дуже погано підтримана (див. нижче зображення). Могутні мовні моделі, які фокусуються на англійській мові, розуміють німецьку лише тому, що ця мова була майже випадково захоплена як продукти відходів у вигляді виниклої властивості.

Переваги власних мовних моделей

Мовний модел можна отримати наступними способами:

  • Створення на основі даних. Для цього зазвичай потрібні кілька сотень тисяч годин обчислень за допомогою GPU (GPU – графічний процесор), тому це не завжди можливе для багатьох компаній.
  • Використовувати відкриті мовні моделі, які формуються шляхом дрібного налаштування: більш вимогливий, але керований стандартний шлях.
  • Використовувати відкриті мовні моделі, які отримують лише власні документи як контекст у запитанні.

Перші дві можливості мають різну можливість прийняти мову ґендеру. Файн-Тюнінг, проте, має проблеми, які не можна повністю уникнути.

Німецька мова не є світовою мовою. Список показує мови за їхню відносну важливість для мовного моделю FLAN-T5 компанії Google. Німецька навіть попереджає мови, такі як гуджарати, про які багато хто може бути зовсім незнаючи.

Третя можливість використання відкритих мовних моделей — найтехнічніше та часто працює. Вона не справляється з гендерною мовою взагалі. Це технічна заява, а не політична.

Власне німецьке мовленнєве моделювання не тільки можливе, але й має багато переваг. Серед них такі переваги:

  • Німецька мова займає перше місце. Ми живемо в Німеччині, а не в Іспанії. Англійські слова можуть зрозуміти німецьке мовне моделювання.
  • Вантаж із кількох інших мов не потрібно переносити. Добре для вимог до обладнання (графічна карта!) та робочої швидкості.
  • Високоякісні матеріали можуть бути використані замість сміття з особистих даних (= загально доступна інформація, яка не була попередньо відфільтрована).
  • Зосередження на певній галузі знань (або навіть декілька).
  • Оптимальна користувацька робота з підвищеною чутливістю до результатів, а не так, ніби кожен відповідь вірний (як ChatGPT або Bing).
  • Гіршіша чи фіксовані витрати: власне підприємство КІ-системи ґрунтується головним чином на вартості придбання або оренди сервера для КІ. Частота використання нічого не змінює. Витрат залишаються дуже низькими. Інакше виглядають хмари рішень, такі як ChatGPT. Питання документів швидко стає дорогим при частотному використанні. Ті хто користуються API-інтерфейсом від OpenAI повинні краще не програмувати рекурсію або нескінченний цикл, оскільки інакше бюджет буде витрачатися за хвилину без жодного користування. Таке не може статися з власним системою.

Наступний розділ присвячений навчальним матеріалам для німецьких моделей штучної інтеллекту, бо вони створюють основу для штучної мови. З цього випливає декілька пропозицій щодо органів влади та інших державних установ, які можуть забезпечити розвиток штучної інтелекту в Німеччині.

Дані для навчання німецьким мовним асистентам з інтелектуальної власності

Виховні дані – це те саме, що батьки навчають своєму діткові. Для мовних моделей потрібні німецькі тексти. Від куди вони візьмуть ці тексти, якщо не вкрадуть?

Інтернет пропонує велику кількість німецьких текстів. Також компанії мають у своєму інтренеті багато документів, які є гідними джерелом знань.

Повідомлення PDF замість HTML

Бундесгерховий суд (BGH) публікує свої рішення, здається, тільки у форматі PDF. Громадська платформа openjur, видавець вільного доступу до інформації, завантажує ці PDF і витягує з них (ручного?) текст. Після чого openjur робить рішення вільно доступними онлайн. А також Бундесанзейгер публікує багато документів тільки у форматі PDF.

Аналогічно поведуться деякі інші важливі публічні джерела, які можуть бути цікаві для моделей КІ. Наприклад, багато регулюючих органів публікують свої звітні матеріали або керівництва лише у форматі PDF.

Складне двостороннє PDF від органів захисту даних.

Зображення показує фрагмент офіційного та публічного PDF-документу німецької комісії з захисту даних. Наприклад, дві колонки вже роблять імпорт тексту складнішим самим за собою. Дві колонки додатково розділені спеціальною підзаголовком. Що для людини візуально легко сприймати, є проблемою для попередньої стадії розвитку КІ. almost everything is solvable, but with what effort and reliability? Why not provide raw data or at least (or only) formats that are one-columned? Examples are HTML or raw text. HTML can be a human-readable website that can also be easily read by machines, which is called scraping.

Виправити помилку в легкій мові

З погляду логічного та технічного, ґендерівка є протилежністю простої мови („Легка мова“). Наприклад, такий приклад з документа німецької комісії із захисту даних:

  • Працівники" замість "працівник

В інших документах тієї ж влади можна знайти:

  • Робітники

Ці формулювання не є ні узгодженими, ні «легкими». Крім того, здається, що мова ґендеру стосується лише текстів, які видаються пошуковими машинами або чат-ботами.

Питання в тому, чи кожен користувач звертається до моделю КІ з мовою ґендеру або ні. Навіть штучна інтелект не здатний виконувати чудеса. Так само ні один людина не є генієм. Більшість людей у Німеччині навіть не можуть змінити колесо на автомобілі.

Дані мають якість, тому важливо їх якості: Модель мови на ім'я Зефір має лише один десятий відсоток параметрів потужного 70B-моделю та є (також) досить добре через якість даних.

Це призводить до значно швидшого завантаження моделі та суттєво швидшого створення відповідей.

Навіть технічніше це виглядає через те, що перед обробкою даних з використанням штучного інтелекту зовсім не ясно, як здійснювати нормалізацію термінів, які були змінені під час гендеризації. Наприклад, такі фрази:

  • .Містерії працівники:ів … —> працівникам
  • Для працівників:ів —> Працівник

Як бачити з цього, дві форми слова перетворюються на одну, коли граматика стає непізнаваною через ґендерну зміну. Чоловік може слідувати цьому, адже він вже є інтелектом (не завжди, але іноді). Комп'ютер, який обробляє тексти перед їх підготовкою до навчання для моделювання мови AI, не зможе з надійністю розрізняти цю невизначеність. У будь-якому разі, потрібні багато окремих розглянутих випадків, щоб загальне результат було досить добре збалансованим.

Наступна формулювання важко обробляти машинами, бо тут граматика повністю втрачена. Вже багато людей мають проблеми з розумінням цієї мови.

  • Мій співгромадянин/ка

Якщо воно ще більше складає, використовує замість двокрапки ґендеру зірочку ґендеру:

  • Громадяни

КІ-моделі ґрунтуються на мільйонах, а часто й мільярдах даних. При великих мовних моделях кожен набір даних складається з окремого текстового фрагменту. Поки що КІ-моделі вивчають багато прикладів, тому для використання мови жіночої особи необхідні ще багато інших прикладів. Таким чином, основна проблема лише загострюється.

Незалежно від цього, як було показано вище, страждає граматика. З чіткості виникає нечіткість. Хто трохи знайомий із моделями КІ, знає, скільки важливі чисті дані входу. Більше різниці в випадках та більша нечіткість у своїй сутності керуються, але вимагають більше зусиль. Високий витратний процес навчання або тонкого навчання моделей КІ вже сам по собі досить високий і багатьом майже недоступний.

Самі класичні методи НЛП, такі як лематизація та формування коренів слів, збиваються зі своїми уявленнями щодо двоїнства гендера.

Об'єктивна, чисто технічна оцінка. NLP = Обробка природної мови.

Інтересна питання було б, чи прихильники мови ґендеру також вводять її у полі пошуку в пошукових системах або як промпт у моделях штучного інтелекту. Згідно з цим вони повинні робити це. Відповідно до цього той хто підтримує мову ґендеру, тепер знає, що пошукові системи та моделі штучного інтелекту також використовують дані користувачів для навчання. Якщо ж користувач завжди використовує звичайну мову і не ґендерівану версію мови, тоді застосування, на жаль (або щасливо?), не буде досить добре володіти мовою ґендеру.

В цьому питанні йде мова про чисту аргументацію щодо скасування ґендерної мови на користь КІ. Проте, варто відзначити одне. У мене був попередній коментар, який стверджував: «"Мова належить народові" – резолюція Бундестагу від 26 березня 1998 року". Тут слід згадати, що більшість німців проти ґендерної мови. Якщо рішення демократичного більшістю буде поважене, тоді рішенням народу було досягнуто. Інший коментар стверджував, що запитана КІ відповіла, що вона розуміє ґендерну мову. Вірогідно, це була чатGPT, система, яка постійно дає задоволені відповіді, а також часто невірно відповідає, а також загалом не підходить для конкретних завдань у компанії для надання точних результатів.

Пропозиції щодо кращої якості даних

Нижченаведені рекомендації звертаються до підприємств та громадських установ. Особливо останні мають можливість надати інформацію загального інтересу у форматі, який легко обробляти цифровим чином.

Відкриті документи повинні бути надані у форматі Формат Роттекст. Зазвичай використовується вищий рівень, тобто HTML. Надавати лише PDF часто призводить до проблем із обробкою машинами. PDF з більшою кількістю стовпців для тексту є ще більш проблематичним. Хто хоче надати PDF, краще надає легко оброблюване документне формату. Також люди зі слабким зором, які бажають або повинні використовувати Screen Reader, краще справляються із простими документами у вигляді PDF.

Документний індекс спрощує пошук наявних документів та рятує від скрейнґування або екстракції даних. При скрейнґуванні вебсторінки автоматизовано обгрібають. Це робить не лише більше роботи для обгрібача, але й серверу обгрібаного шкодить, оскільки збільшується та особливо непотрібний трафік даних.

Діалект ґендерної мови є технічною катастрофою. Більше нічого не можна сказати щодо цього з технічної точки зору. Хто хоче надавати зрозуміліші тексти, повинен відмовитися від ґендерів. Також багато людей можуть деякі ґендерні формулювання не так легко розуміти, як звичайну мову. Включення відбувається інакше, ніж шляхом складності. Так звана Легка мова здається не лише віддаляє від ґендерів, а й вводить додаткові упрощення.

Хто змінює, повинен робити це з чисто логічної точки зору та зі своїм інтересом відразу ж особливо консективно. Консективно означає зробити це в кожному реченні, хоча б у запитаннях або промптах. Ніщо не змусить нікого робити це, але тоді ніхто shouldn't дивуватися, якщо чат-бот чи пошуковий механізм відповість на питання не з урахуванням гендеру мови.

Результат

Технічна нечистота мови ґендеру у навчальних даних для моделей мовної КІ робить навчання складнішим через необхідність більшої кількості вхідних даних. Технічна чистка деяких речень, особливо коли непевні артиклі перед головним словом також змінюються, робить їх ще складнішою. Це виключає читачів, які вже мають проблеми з розумінням текстів вище рівня бавовняної мови.

На цій сторінці жодна дискусія щодо гендеру не бажана. Тут мова йде лише про функціональні спостереження.

Хтось, хто хоче надати документи у час КІ-революції, чи для громадськості, чи для внутрішніх систем КІ, повинен з технічних причин відмовитися від мови ґендеру або дуплікувати всі навчальні дані та забезпечити їх граматичні форми.

Хто вважає мову ґендерів дуже гарною, повинен використовувати її всюди в інтернеті навіть тоді, коли це вимагатиме більше роботи з клавішами. Інакше мова, яку навчають штучному інтелекту за допомогою введених даних, буде все краще розуміти мову без ґендерних знаків тощо.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Google Bard: Витік даних розкриває особисті чати