Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Синтетична інтелект для інтерпретації юридичних текстів

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI
📄 Стаття у форматі PDF (тільки для передплатників новин)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Під час звичайної мови невизначеності приймаються або часто не мають значення, але для юристів точне розуміння змісту заяви є фундаментальним. Юридичні тексти можуть бути аналізовані за допомогою КІ. Чи може це здійснитися з допомогою загальних систем КІ, як ChatGPT? Які інші варіанти існують?

Оновлення у травні 2024

Надійний приклад застосування — об'єднання юридичних текстів. Вибірково у формальній або громадянській мові я підійшов до "мови вулиці". З допомогою власних моделей мови AI, які працюють на власному сервері AI, це було конкретно здійснено для гесських законодавчих актів та для ДSGVO.

Результат для тексту розпорядження щодо GDPR.

Хвилювання

Схоження Bing компанії Microsoft використовує мовний модель із бібліотеки OpenAI. Microsoft недавно уклала партнерську угоду з OpenAI. Схоже́ння Bing відповідає на запитання зі збоїми, хоча воно має доступ до найкращого обладнання та найкращого програмного забезпечення. Причина цього, ймовірно, полягає в тому, що Bing повинна бути універсальною і не спеціалізуватися лише на певному бізнесі.

Високорозвинуте мовне моделювання Microsoft Bing відповідає на першу та майже ідентичну семантично другу запитання, кожен раз із протилежною відповіддю і в обох випадках невірно.

Видно такі приклади. Відповідь на Бінгу дуже швидко доступна, але це не справжній розрада.

Наприклад, такий приклад невдачі досить розвинутого та не спеціалізованого мовного моделю Бінга. Питання таке, яким би воно було під час судового розгляду, відповіли б фахівець. Я сам випадково вже зробив це.

Можна за допомогою адреси IP встановити місцезнаходження сервера?

Так. Зокрема, новіші версії Bing або Copilot теж не здатні надавати достовірних відповідей.

Неправильна відповідь від Bing на запитання: коли за допомогою адреси IP можна встановити місце розташування сервера? (зображення було перекладено автоматично).

Ця відповідь невірна. Адрес IP не підходить для надійного визначення місця розташування сервера. Натомість адреса IP може бути призначена будь-кому з серверів у будь-який час. Для роз'яснення: тут мова йде про сервери, а не інтернет-з'єднання приватних комп'ютерів!

Нині ця ж запитання буде поставлена до Бінга. Проте одне слово змінюється – «анхад» на «з допомогою».

Питання тепер таке: якщо використовувати адресу IP, можна визначити розташування сервера?

Відповідь повинна бути однією і тією ж, але вона не така (у найсуворішому сенсі цього слова, адже Bing відповідає «ні»).

Неправильна відповідь від Bing на запитання: коли за допомогою адреси IP можна визначити місце розташування сервера? (зображення було перекладено автоматично).

Також ця відповідь невірна, бо дана після короткої відповіді «не» причина також є помилковою. навіть з судовим рішенням часто не можна встановити, яка IP-адреса була призначена серверу на певний час X. Для цього потрібно було б, наприклад, Google як приклад власника тисяч серверів, реєструвати IP-адресу кожного серверу в кожен момент часу. Чи це відбувається, невідомо. У будь-якому випадку здається малоймовірним. З огляду на масштабні розподіли навантаження мережа серверів великих власників дуже динамічна. Крім того, Bing надає причину, яка частково не стосується питання. Також «не» як коротка відповідь не відповідає причині.

Вступ

При використанні зовнішніх систем, таких як ті від Microsoft або OpenAI, завжди виникає питання щодо законності результатів. Останнім часом було порушено звинувачення проти openJur, оскільки вони публікували вже опублікований судовий вирок на своїй власній сторінці. Поки що ім'я особи вказувалося у вироку помилково. Вміщення даних або бізнес-інформації, чи інших конфіденційних даних до чатбота, жодним чином не підвищує правову безпеку.

Системи штучного інтелекту, які працюють з даними, значно підвищують не лише правову безпеку, але й якість результатів.

Завданням є автаркні КІ-системи.

Під юристами вже неодноразово обговорювалися можливості використання штучного інтелекту для швидшого вивчення рішень. Для цього підходить, наприклад, завдання NLP щодо текстової підсумування. NLP – це "Natural Language Processing", який намагаєся зрозуміти зміст природної мови. Варіанти NLP вже давно існують.

Новинка в тому, що з потужними мовними моделями (LLM = Large Language Model) тепер навіть складні тексти обробляються у раніше не досягнутій якості. Зокрема, це дозволяє створити асистента запит-відповідь для цього блогу. Результати дуже вражаючі. Проте необхідно втрутитися до системи, щоб уникнути помилкових заяв. Часто так звані галюцинації відповідають за неприйнятні результати.

Халузінації виникають тому, що загальне знання мовного моделювання переплітається з певним знанням із контексту переплітаються. Контекстом можуть бути, наприклад, усі статті на сайті Dr. GDPR. Мовний модуль навчається не лише мови, як німецької, але й набуває знання про світ. У цей процес можуть потрапити помилкові відомості. Добрим прикладом є поширена, але цілком помилкова заява, що Cookies — це текстові файли.

У наступному поясню, які проблеми виникають при аналізі та машинному розумінні юридичних текстів. Ці проблеми стосуються всіх видів текстів, але особливо в правовому полі потрібна найвищий можливий рівень точності.

Після цього буде обговорено питання, чи можуть загальні системи штучного інтелекту, такі як ChatGPT, бути придатними для обробки юридичних документів.

Як обробляються тексти від КІ?

Перед тим як глибше увійти в спеціальні процеси з КІ, необхідно роз'яснити, яким чином обробляються тексти взагалі. І вже давно існувала завдання обробки текстів машинами із метою захоплення змісту.

За прикладом вирішень ЄСПЛ добре помітна складність проблеми. ЄСПЛ надає можливість доступу до вже опублікованих рішень онлайн. Для прикладу використовується будь-яке рішення.

Європейський суд у справах інтелектуальної власності (ЄСПУ) рішення є HTML-сторінкою. HTML містить окрім чистого тексту також інструкцій щодо оформлення, як жирний шрифт, абзаці, інструкції щодо заголовків, автоматичне номерування тощо.

Наприклад, чистий текст з рішення буде такий речення: „За § 5a Abs. 2 DRiG об'єктом університету навчання – протягом якого мінімум два роки повинні були бути проведені в Німеччині – є обов'язкові предмети та спеціальні області зі вибором

Цей речення явно не містить спеціальних символів, над якими людина б подумала. Технічним чином вже знак після „§“ символу є спеціальним знаком. Це не порожній знак у технічному сенсі, а саме знак, який виглядає як порожній знак.

Інше приклад із рішення суду (цей раз АГ Бонн) для речення, яке не є таким:

Судження, яке ні. У будь-якому разі тут неправильна граматика. (зображення було перекладено автоматично).

Що таке це важливо? Для цього розуміння важливий процес обробки текстів за допомогою КІ. Основні кроки, які необхідно виконати, щоб КІ могла обробляти тексти та відповідати на питання такі:

  1. Завантажити текст (тут: рішення ЄСПЛ у форматі HTML, можливо також PDF-документи та інші файли).
  2. Використовувати Ротекс для екстракції.
  3. Текст розділити на маленькі шматки, які вміщуються в пам'ять моделі КІ. Найкращі моделі КІ мали ще недавно лише 1024 знаків Пам'яті для введення. Тепер ця місткість збільшилася вчетверо. Цей прикладний судовий випадок має близько 44000 знаків.
  4. Збирати дані користувача, наприклад, запитання, і перетворювати їх на рядки чисел, які можуть зрозуміти модель КІ.
  5. Відокремлені частини з кроку 3 зі введенням користувача з кроку 4 порівняти та сформулюйте відповідь.

Питання щодо певного документа (у цьому випадку рішення ЄСПЛ) відповідає на штучний інтелект, який спочатку знаходить найкращий текстовий фрагмент (або декілька) до питання та потім видає відповідь з цього фрагменту.

Документ обробляється шляхом його розбивання на помірні частини, кожна частина закінчується кінцем речення.

Хеппчени можуть перекриватися, тому окремі речення можна розділити між собою.

Основною смисливою семантичною одиницею є речення. Тому в попередньому крокі 3 текст розділений на речення. Було б дуже неприємно, якщо речення було розрізано навпіл і таким чином потрапило до двох різних інформаційних блоків.

Виявлення речень у текстах

Як показано на малюнку, КІ повинна знати, з яких речень складається текст. Без відомості окремих, чисто відокремлених речень виникає звичайно семантичний спад. Крім того, моделі КІ для певних завдань, таких як підсумовування тексту або загальне розуміння тексту за допомогою прикладів тренуються. Для цього надаються речення чи заяви як приклади та ідеальна відповідь людини-тренера надається разом.

Що таке речення? Цю питання не можна просто відповісти. Зазвичай речення закінчується знаком кінця речення. Але часто ні. Крім того, що знак кінця речення часто є також знаком відсутності речення. У скороченнях точка використовується як знак скорочення. Складно стає тоді, коли скорочення знаходиться наприкінці речення і знак скорочення та знак кінця речення поєднані в одне знак.

Наприклад, приклад речення з рішення ЄСПЛ, яке більшість людей не можуть прочитати до кінця або правильно зрозуміти його значення при першому читанні:

У справі C-358/08 щодо попереднього рішення згідно зі статтею 234 ЄС, поданого від Палати Лордів (Велика Британія) із рішенням від 11 червня 2008 року, прийнятого у судову систему ЄС 5 серпня 2008 року, в якому було розглянуто справу Aventis Pasteur SA проти OB: видає СУДОВА ПАЛАТА (Велика палата) під керівництвом голови суду В. Скуріса, голови палати А. Тізано, голови суду Є. Левіта та інших, Генеральний прокурор: В. Трестеняк, Клерк: Л. Гевлетт, Головний виконавчий директор, згідно із письмовим процесом та після усної слухання 30 червня 2009 року, з урахуванням заяв – від Aventis Pasteur SA, представленої Г. Леггаттом, QC, в супроводі П. Попатом, адвокатом, – від OB, представленого С. Маскреєм, QC, в супроводі Г. Престоном, адвокатом, Європейська комісія, представлена Г. Вілмсом як повноважним представником, після слухання висновків Генерального прокурора на засіданні 8 вересня 2009 року постановляє:

Вибірка з рішенням ЄСПЛ щодо справи C-358/08. Зображення цього тексту в оригінальному форматі вимагає приблизно DIN A4 сторінки. ([1])

Що стосується того, що речення без кінцевих коми закінчуватися може бути проблемою для людини, але не для ЄСПВУ, це пов'язано з використовуваним форматом (HTML-код). Наприклад:

Перегляд рішення ЄСПЛ у браузері (відділ). Джерело: https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909. (зображення було перекладено автоматично).

Після слова "вирок" теж саме стосується кінця речення, як і після слова "підстави рішення". З іншого боку, номерування використовує крапку лише як позначення номера, а не для закінчення речення.

Якщо дивитися на HTML-код тексту, який тільки що був показаний, то можна побачити таке:

HTML-Code eines EuGH-Urteils (Auszug). Джерело: view-source:https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909.

Текст джерела: Die Worte „Urteil“ und „Entscheidungsgründe“ sind durch Layout-Anweisungen in unterschiedlichen Zeilen platziert. Der HTML-Tag "<p>" sorgt für einen Absatz (p = Paragraph) und der HTML-Tag "<h2>" für eine Überschrift der Ebene 2 (h = Headline). Dies is jedenfalls eine weit verbreitete Konvention. Denn HTML-Tags können von jeder Website beliebig angepasst werden. Переклад: Слово „Urteil“ та „Entscheidungsgründe“ розташовані в різних рядках за допомогою вказівок щодо розташування вмісту. Тег HTML «<p>» створює абзац (p = Paragraph), а тег HTML «<h2>» створює заголовок рівня 2 (h = Headline). Це, щонайменше, дуже поширена конвенція. Тому теги HTML можуть бути змінені на будь-якій вебсторінці.

Двома невеликими змінами в оформленні сторінки HTML виникає наступна візуалізація, яка завжди має такий самий джерельний код, як і раніше показаний був. Лише вказівки щодо розміщення (CSS-вказівки) для тегів "<p>" та "<h2>" були мінімально змінені для демонстрації:

Перегляд браузера для тієї ж самої постанови ЄСПЛ, як тільки раніше, лише що для p і h2 відключено зміщення рядків (CSS-інструкція: float: left). (зображення було перекладено автоматично).

Людина міг легко визначити, які терміни та речення мають місце у хронології. Для комп'ютера це майже неможливо. Наявно потрібно було б симулювати браузер і тоді вийняти текст із нього. Але тоді або втрачалися б дані, якщо отримувався би чистий текст, або знову були б непридатні дані через наявність коду маркування, який вже був раніше.

Середнє підсумок:

Виведення тексту-оригіналу із форматованого тексту є великою проблемою, яка не була задовільно вирішена. Форматований текст — будь-який тип документа, який не містить тексту-оригіналу. Отже, це звичайне явище, що передоброблення від попереднього тексту викликає великі трудності.

Абревіатури, перелік та подібне

У прикладі вже відбулося таке, що наївний алгоритм, який розпізнає кінцевий пункт речення, провалюється. Вказівка "1. Тут знаходиться перший пункт списку." призведе до наступних трьох речень:

  1. "1."
  2. "Тут знаходиться перший."
  3. "Почутися.

Виразно це божевілля. Але виразно лише для людини. Поки ми всі є надмірно розслабленими користувачами комп'ютерних систем, часто дуже обурюємося такими технічними недоліками. Але це не змінює того факту, що програми комп'ютерів мають такі проблеми.

Такі прості конфігурації добре керуються, але потім не дуже надійні.

Як виглядає такий чисто вигаданий речення? "Повідомлення господина Х. припиняється у абзаті 3 статті 4 ДЗГВ." Для того, щоб інтерпретувати речення з допомогою КІ, слід знати скорочення "абс." та "стаття". Також слід розуміти "Х." як скорочення імені (або псевдонімування імені).

Цей невеликий проблем у попередньому обробленні текстів перед тим як вони будуть імпортовані в модель КІ, призводить до неправильних відповідей. Приклад був наведений на початку статті.

Що це означає для загальноріздних моделей КІ, як наприклад ChatGPT?

Основові Передобробки тексту можуть виконувати двигун ChatGPT досить добре. Відповідно, це повинно бути справедливо для стандартних форматів та загальних питань. Для юридичних текстів, таких як рішення ЄСПЛ, цього вже не достатньо. Під час багатьох людей знають, що скорочення «.Abs.» означає, але при «ABl.» вже досить рідко, оскільки тоді наприклад також спеціалісти із захисту даних, які не є юристами, часто не мають глибокого розуміння. Я сам повинен був хоча б при «Slg.» перевірити значення цього терміну. Тепер навіть мої системи з обробки даних знають, що ЄСПЛ рішення можуть прочитати та обробляти (більше про це пізніше).

Універсальні системи мовлення з використанням штучного інтелекту обов'язково розподіляють речення неправильно. Це може бути інше за п'ять або десять років, але зараз так воно є. Також обробка спеціалізованого HTML-коду краще виконує спеціалізований конвенційний програмний код, ніж будь-яка універсальна штучна інтелектуальна система мовлення.

Мій автаркес, самостійно розроблений та даних-орієнтований інтелектуальний систем може краще розуміти юридичні тексти ніж ChatGPT.

Згідно з моїми випробуваннях із рішенням ЄСПЛ та юридичними питаннями,

Доменне спеціальне знання володіти загальними системами КІ, такі як ChatGPT, теж не дуже добре. Халарингації залишаються поза увагою. У цьому контексті слід відзначити, що введення власних документів у ChatGPT в моделі за додаткову плату значно підвищує ціну (хоча і на кожного запитання лише трохи), оскільки кожне документа введення документів рахується за розмір (Token).

Інші аспекти тут не можна глибше вивчити, але вони теж грають роль і збільшують проблему при використанні загальних систем штучного інтелекту. Серед них лише згадуються:

  • Синоніми;
  • Німецька мова (більшість LLMs переважно навчені англійською, китайською тощо);
  • Контекстна інформація (Наприклад, "Підписи" наприкінці рішення ЄСПЛ не є семантично важливим елементом);
  • Аналіз TF*IDF для попередньої обробки текстів для систем FAQs.

Незабутня захоплення багатьох скоро буде змінено частковою розчаруванням, навіть якщо сучасні системи штучного інтелекту виконують дивовижні речі. Хоча деякі досягнення у розпізнаванні тексту значно покращилися порівняно з двома роками тому, вони ще не досить надійні, щоб вважати їх міцною базою для професійної роботи.

Try Offline-AI now

Optimizable and with full data control. Economical even in continuous operation.
Fully-controlled data center, no third-parties.

Вищі проблеми краще розв'язувати спеціалізованими засобами. Нічого не робиш без причини. Хто вважає, що КІ може все, той дуже швидко повернеться на Батьківщину реальності. Тепер я обробляю близько 25 тисяч рішень ЄСПВ, щоб глибше їх вивчити та зробити пошуком більш ефективним. У процесі цього виникнуть численні спеціальні оптимізації, які суттєво підвищують якість даних. Як кажуть: GIGO (Garbage In – Garbage Out) або навіть SISO (спробуйте запитати КІ, якщо ви не зможете самостійно дійти висновку). А краще тоді ще й запитайте "Slg." (якщо ви належите до більшості людей, які цю абревіатуру не знають)

Найкраща альтернатива до ChatGPT

Найкраща альтернатива до ChatGPT з моїєї точки зору, яка може забезпечити більш надійні результати та особливо бути більш сприятливою для даних, виглядає так:

  • Вибір відповідного мовного моделю, який дуже добре розуміє німецьку мову.
  • Оптимальна попередня обробка наданих документів за допомогою загальних бібліотек, які використовуються та конфігуровані конкретно.
  • Підготовка запитання користувача (prompt) для виявлення, наприклад, подібних запитань та помилок у написанні.
  • Підтримка навчання місцевого мовного моделю для уникнення галюцинацій.
  • Інтелектуальна пошукова система в базі знань для отримання найкращих результатів.
  • Об'єднання розумної пошукової системи з конвенційною, також розумною пошуковою системою.
  • Приязна до користувача та адекватне представлення результатів для керівництва користувачем, щоб він чи вона не зупинялася думати.
  • Вибір відповідної апаратури, або власного будинку, або орендованої у німецького провайдера.

Всі ці питання вже вирішені. Це призводить до того, що витрат на впровадження рішення у вашій компанії мінімальні. Економічні рішення з високим корисним ефектом такі можливі. Інтелектуальна пошукова система (векторна пошуковка) плюс звичайна пошукова система (N-Грами, TF*IDF, Soundex, Edit Distance тощо.) вже реалізовані для цього блогу і доповнюють пошук WordPress з чисто практичних причин. WordPress не знаходить відповідей при помилках написання та більш складних запитах, наприклад "Що таке IP-адреси?" (які я навмисно написав неправильно). Але моя пошукова система вже знаходить відповіді. Пошук відбувається на дуже економному сервері німецького провайдера і може бути продовжено, наприклад, до системи запитань та відповідей з абстрактними результатами. Абстрактивним називається те, що відповіді відбуваються у власних словах і не як цитата (це було б екстрактивним). ([1])

Результат

Докладність може бути досягнута лише шляхом конкретної оптимізації для певного випадку застосування. При системах штучної інтелекту відбувається те саме, що і при людини. Спеціаліст зможе зробити більше на своїй спеціальності, ніж Альберт Ейнштейн, який може досягти досить добрих результатів у галузі, з якою він ще не глибоко займався.

Інвестиція в початку дозволяє багато вільних дій і виконує бажання. Вже після короткого часу це виправдовує себе. Якість має свій ціну. Ніяка якість не має вищої ціни. Поки погана порівняно з доброю рішенням протягом часу знову й знову трохи коштує грошей, вона середньотерміново дорожча і довгостроково дуже дорожча.

Як завжди, найпростіший шлях майже завжди є поганим вибором, окрім дуже очевидних дій, як дихання тощо. Коли йде про Зв'язковість, жоден загальний чатбот не може бути серйозно розглянутий. Але спеціалізовані системи можуть бути надійними. Подорож на Марс більше не потрібна, щоб мати таке саме системне рішення. Натомість досить здійснити подорож у найближчу місцевість Німеччини, щоб описати це словами.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Bullshit Basics: Google Tag Manager не є доменом без cookies: приклад