Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen
Externe Links sind mit dem Symbol Externer Link Symbol gekennzeichnet. Datenschutzinfo

Künstliche Intelligenz für die Interpretation juristischer Texte

Deutsche Version (Original)
0
Dr. DSGVO Newsletter erkannt: Erweiterte Funktionen verfügbar
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
Standardansicht: Dr. DSGVO Newsletter nicht erkannt. Erweiterte Funktionen nur für Abonnenten:
Artikel als PDF · Mehr Inhalte & kompakte Kernaussagen · Webseiten-Checks · Offline-KI Live
📄 Artikel als PDF (nur für Newsletter-Abonnenten)
🔒 Premium-Funktion
Der aktuelle Beitrag kann in PDF-Form angesehen und heruntergeladen werden

📊 Download freischalten
Der Download ist nur für Abonnenten des Dr. DSGVO-Newsletters möglich

Während in der Alltagssprache Ungenauigkeiten akzeptiert werden oder oft unwesentlich sind, ist das präzise Verständnis der Bedeutung einer Aussage für Juristen fundamental. Juristische Texte können mit einer KI analysiert werden. Kann das mit generischen KI-Systemen wie ChatGPT zufriedenstellend gelingen? Welche Alternativen gibt es?

Update:

Ein sinnvoller Anwendungsfall ist die Zusammenfassung juristischer Texte. Wahlweise in formaler oder bürgerfreundlicher Sprache bin hin zur "Sprache der Straße". Mit eigenen KI-Sprachmodellen, die auf eigenen KI-Servern laufen, wurde dies konkret für hessische Gesetze und für die DSGVO realisiert.

Ergebnis für den Verordnungstext der DSGVO.

Motivation

Die Suchmaschine Bing von Microsoft nutzt ein Sprachmodell aus dem Bestand von OpenAI. Microsoft ist kürzlich mit OpenAI eine Partnerschaft eingegangen. Die Bing Suche antwortet mit Falschaussagen, obwohl sie auf beste Hardware und beste Software zurückgreifen kann. Der Grund ist wohl, dass Bing universell nutzbar sein soll und nicht spezifisch auf Ihr Unternehmen geprägt ist.

Das hoch entwickelte Sprachmodell von Microsoft Bing antwortet auf eine erste Frage und die semantisch gleiche und nahezu identische zweite Frage mit jeweils der gegenteiligen Antwort und in beiden Fällen falsch.

Siehe folgende Beispiele. Immerhin ist die Antwort auf Bing sehr schnell vorhanden, kein wirklicher Trost.

Hier ein Beispiel für das Versagen des weit fortgeschrittenen, unspezialisierten Sprachmodells von Bing. Die Fragestellung ist geeignet, um vor Gericht von einem Sachverständigen beantwortet zu werden. Ich selbst hatte dies rein zufällig bereits getan.

Frage: kann anhand der ip-adresse der standort eines servers ermittelt werden?

Antwort von Bing (Stand: 31.08.2023): Ja. Übrigens sind auch neuere Versionen von Bing oder Copilot nicht in der Lage, zuverlässig zu antworten.

Falsche Antwort von Bing auf die Frage: kann anhand der ip-adresse der standort eines servers ermittelt werden?

Diese Antwort ist falsch. Eine IP-Adresse ist ungeeignet, um zuverlässig den Standort eines Server zu ermitteln. Vielmehr kann sich die Zuordnung der IP-Adresse zu einem Server jederzeit ändern. Zur Klarstellung: Hier geht es um Server, nicht um Internetanschlüsse von privaten PCs!

Nun wird die gleiche Frage an Bing gestellt. Allerdings wird ein einziges Wort ausgetauscht, nämlich „anhand“ durch „mithilfe“.

Die Frage lautet nun: kann mithilfe der ip-adresse der standort eines servers ermittelt werden?

Die Antwort sollte dieselbe sein, ist sie aber nicht (im wahrsten Sinne des Wortes, denn Bing antwortet mit „nicht“).

Falsche Antwort von Bing auf die Frage: kann mithllfe der ip-adresse der standort eines servers ermittelt werden?

Auch diese Antwort ist falsch, denn die nach der Kurzantwort „nicht“ gegebene Begründung ist auch falsch. Selbst mit richterlichem Beschluss kann oft nicht ermittelt werden, welcher IP-Adresse ein Server zu einem Zeitpunkt X zugeordnet war. Denn dazu müsste, nehmen wir Google als Beispiel für einen Betreiber von hunderttausenden von Servern, Google die IP-Adresse pro Server zu jedem Zeitpunkt protokollieren. Ob dies stattfindet, ist nicht nachvollziehbar. Jedenfalls erscheint es unwahrscheinlich. Aufgrund von massiven Lastverteilungen ist das Server-Netzwerk großer Betreiber hochdynamisch. Zudem gibt Bing eine Begründung, die in Teilen nicht zur Frage passt. Außerdem passt „nicht“ als Kurzantwort nicht zur Begründung.

Einleitung

Bei Verwendung von Drittsystemen wie denen von Microsoft oder OpenAI stellt sich neben der Qualität der Ergebnisse immer auch die Frage nach der Rechtmäßigkeit. Zuletzt etwa gab es eine Anklage gegen openJur, weil diese ein bereits veröffentlichtes Urteil auf deren eigener Webseite auch veröffentlicht hatten. Denn irrtümlicherweise war im Urteil der Klarname einer Person genannt. Derartige Daten oder auch Geschäftsgeheimnisse oder andere vertrauliche Daten in einen Chatbot zu schieben, erhöht die Rechtssicherheit jedenfalls nicht.

Datenfreundliche KI-Systeme erhöhen nicht nur die Rechtssicherheit erheblich, sondern oft auch die Qualität der Ergebnisse.

Gemeint sind autarke KI-Systeme.

Unter Juristen wurde bereits des Öfteren darüber diskutiert, inwieweit Künstliche Intelligenz dabei helfen kann, Urteile schneller erfassen zu können. Hierfür eignet sich beispielsweise die NLP-Aufgabe der Textzusammenfassung. NLP steht für "Natural Language Processing" und versucht, die Bedeutung natürlicher Sprache zu erfassen. NLP-Ansätze gibt es schon lange.

Neu ist, dass mit mächtigen Sprachmodellen (LLM = Large Language Model) nun selbst komplexe Texte in bisher nie erreichter Qualität verarbeitet werden können. Damit gelingt es beispielsweise, einen Frage-Antwort-Assistenten für diesen Blog zu programmieren. Die Ergebnisse sind erstaunlich. Allerdings muss zur Vermeidung von Falschaussagen in das System eingegriffen werden. Oft sind die sogenannten Halluzinationen für unerwünschte Ergebnisse verantwortlich.

Halluzinationen entstehen dadurch, dass das Allgemeinwissen eines Sprachmodells sich mit einem spezifischen Wissen aus dem Kontext überlagert. Der Kontext sind beispielsweise alle Beiträge auf Dr. DSGVO. Ein Sprachmodell lernt nämlich nicht nur die Grammatik einer Sprache wie der deutschen, sondern eignet sich im Zuge dessen auch Faktenwissen an. Hierbei können falsche Fakten aufgenommen werden. Ein gutes Beispiel ist die weit verbreitete, aber grundfalsche Aussage, dass Cookies Textdateien seien.

Im Folgenden wird erläutert, was die Schwierigkeiten beim Analysieren und maschinellen Verstehen von juristischen Texten sind. Diese Schwierigkeiten gelten für alle Arten von Texten, nur dass besonders im rechtlichen Bereich eine höchstmögliche Genauigkeit erforderlich ist.

Danach wird die Frage diskutiert, ob allgemeine KI-Systeme wie ChatGPT geeignet sein können, juristische Texte ordentlich zu verarbeiten.

Wie werden Texte von einer KI verarbeitet?

Bevor wir tiefer in die KI-spezifischen Prozesse einsteigen, muss geklärt werden, wie Texte überhaupt verarbeitet werden. Auch vor längerem schon bestand die Aufgabe der Textverarbeitung durch Maschinen, mit dem Ziel, die Bedeutung zu erfassen.

Am Beispiel von EuGH-Urteilen wird die Komplexität des Problems schön deutlich. Der EuGH gibt die Möglichkeit, auf die bisher veröffentlichten Urteile online zuzugreifen. Für das Beispiel wird ein beliebiges Urteil herangezogen.

Ein EuGH-Urteil ist eine HTML-Seite. HTML enthält neben reinen Text auch Layout-Anweisungen wie Fettdruck, Absätze, Überschriftenanweisungen, automatische Nummerierungen usw.

Ein reiner Text aus dem Urteil wäre beispielsweise dieser Satz: „Nach § 5a Abs. 2 DRiG sind Gegenstand des Universitätsstudiums – von dem mindestens zwei Jahre in Deutschland verbracht worden sein müssen – Pflichtfächer und Schwerpunktbereiche mit Wahlmöglichkeiten.“

Dieser Satz enthält offensichtlich keine Sonderzeichen, über die ein Mensch nachdenken würde. Technisch betrachtet, ist bereits das Zeichen nach dem „§“ Symbol ein Sonderzeichen. Es handelt sich nicht um ein Leerzeichen im technischen Sinne, sondern um ein Zeichen, das wie ein Leerzeichen aussieht.

Ein weiteres Beispiel aus einem Urteil (diesmal AG Bonn) für einen Satz, der keiner ist:

Der Satz, der keiner ist. Jedenfalls hängt hier die Grammatik schief. Quelle: Urteil AG Bonn auf openJur.

Wieso ist das wichtig? Um dies zu verstehen, ist das Verständnis vom Prozess der Textverarbeitung durch eine KI wichtig. Im Wesentlichen sind folgende Schritte erforderlich, damit eine KI Texte verarbeiten und beispielsweise Fragen dazu beantworten kann:

  1. Text einlesen (hier: EuGH-Urteil HTML-Format, denkbar wären auch PDF-Dokumente und andere Dateiformate).
  2. Rohtext extrahieren.
  3. Text in handliche Häppchen aufteilen, die in den Speicher eines KI-Modells passen. Die besten KI-Modelle hatten bis vor kurzem noch 1024 Zeichen Speicherkapazität für die Eingabe. Mittlerweile hat sich diese Kapazität verachtfacht. Das hier betrachtete Beispiel-Urteil hat ca. 44000 Zeichen.
  4. Nutzereingabe entgegennehmen, beispielsweise eine Frage, und in Zahlenreihen konvertieren, die ein KI-Modell verstehen kann.
  5. Die einzelnen Häppchen aus Schritt 3 mit der Nutzereingabe aus Schritt 4 vergleichen und eine Antwort formulieren.

Fragen gegen ein bestimmtes Dokument (hier: EuGH Urteil) werden von einer KI beantwortet, indem zunächst das beste Texthäppchen (oder einige wenige) zur Frage ermittelt und dann die Antwort aus diesem Häppchen herausgezogen wird.

Ein Dokument wird verarbeitet, indem es zuerst in handliche Häppchen zerteilt wird. Ein Häppchen endet an einem Satzende.

Häppchen können sich überlappen, also einzelne Sätze miteinander teilen.

Die grundsätzlich kleinste sinnvolle semantische Einheit ist ein Satz. Deshalb wird im eben genannten Schritt 3 der Text in Sätze zerteilt. Es wäre sehr unschön, wenn ein Satz in zwei Hälften geteilt und somit in zwei unterschiedlichen Informationshäppchen landen würde.

Sätze in Texten ermitteln

Wie gleich dargestellt wird, sollte eine KI wissen, aus welchen Sätzen ein Text besteht. Ohne Kenntnis der einzelnen, sauber voneinander getrennten Sätze entsteht üblicherweise semantischer Abfall. Zudem werden KI-Modelle für bestimmte Aufgaben wie das Zusammenfassen von Text oder auch für das allgemeine Textverständnis durch Beispiele trainiert. Dafür werden Sätze bzw. Aussagen als Beispiele gegeben und die vom Menschen als Trainer erdachte Idealantwort mitgegeben.

Was ist ein Satz? Diese Frage kann nicht einfach beantwortet werden. Üblicherweise endet ein Satz mit einem Satzendezeichen. Oft aber auch nicht. Hinzu kommt, dass das Satzendezeichen oft auch ein Nichtsatzzeichen ist. In Abkürzungen wird der Punkt nämlich als Abkürzungskennzeichen benutzt. Schwierig wird es, wenn eine Abkürzung am Ende eines Satzes steht und das Abkürzungskennzeichen und das Satzendezeichen in einem Zeichen vereint sind.

Ein Beispiel für einen Satz aus einem EuGH-Urteil, bei dem die meisten Menschen es nicht schaffen, ihn bis zum Ende zu lesen oder dessen Bedeutung beim ersten Mal korrekt zu erfassen:

In der Rechtssache C-358/08 betreffend ein Vorabentscheidungsersuchen nach Artikel 234 EG, eingereicht vom House of Lords (Vereinigtes Königreich) mit Entscheidung vom 11. Juni 2008, beim Gerichtshof eingegangen am 5. August 2008, in dem Verfahren Aventis Pasteur SA: gegen OB: erlässt DER GERICHTSHOF (Große Kammer) unter Mitwirkung des Präsidenten V. Skouris, der Kammerpräsidenten A. Tizzano, J. N. Cunha Rodrigues, K. Lenaerts (Berichterstatter) und E. Levits sowie der Richter C. W. A. Timmermans, A. Rosas, A. Borg Barthet, M. Ilešič, J. Malenovský, U. Lõhmus, A. Ó Caoimh und J.-J. Kasel, Generalanwältin: V. Trstenjak, Kanzler: L. Hewlett, Hauptverwaltungsrätin, aufgrund des schriftlichen Verfahrens und auf die mündliche Verhandlung vom 30. Juni 2009, unter Berücksichtigung der Erklärungen – der Aventis Pasteur SA, vertreten durch G. Leggatt, QC, im Beistand von P. Popat, Barrister, – von OB, vertreten durch S. Maskrey, QC, im Beistand von H. Preston, Barrister, –
der Europäischen Kommission, vertreten durch G. Wilms als Bevollmächtigten, nach Anhörung der Schlussanträge der Generalanwältin in der Sitzung vom 8. September 2009 folgendes Urteil:

Auszug aus einem EuGH-Urteil zur Rechtssache C‑358/08. Die Darstellung ist hier komprimiert. Die Bildschirmansicht dieses Satzes in Originalformatierung benötigt eine gefühlte DIN A4-Seite.

Dass ein Satz ohne Satzendezeichen enden kann, der Mensch damit aber kein Problem hat, liegt bei EuGH-Urteilen am verwendeten Markup (HTML-Code). Hier ein Beispiel (Auszug aus einem willkürlichen EuGH-Urteil):

Ansicht eines EuGH-Urteils im Browser (Auszug). Quelle: https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909.

Nach dem Wort „Urteil“ steht ebenso wenig ein Satzendezeichen wie nach dem Wort „Entscheidungsgründe“. Andererseits verwendet die Nummerierung einen Punkt, der nur als Kennzeichen der Nummerierung dient, nicht aber für ein Satzende.

Schaut man sich den HTML-Code zum eben gezeigten Text an, findet man Folgendes:

HTML-Code eines EuGH-Urteils (Auszug). Quelle: view-source:https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909.

Die Worte „Urteil“ und „Entscheidungsgründe“ sind durch Layout-Anweisungen in unterschiedlichen Zeilen platziert. Der HTML-Tag "<p>" sorgt für einen Absatz (p = Paragraph) und der HTML-Tag "<h2>" für eine Überschrift der Ebene 2 (h = Headline). Dies ist jedenfalls eine weit verbreitete Konvention. Denn HTML-Tags können von jeder Webseite beliebig angepasst werden.

Durch zwei kleine Änderungen am Layout der HTML-Seite entsteht folgende Ansicht, die immer denselben Quellcode wie eben gezeigt hat. Lediglich die Layout-Anweisungen (CSS-Anweisungen) für die Tags "<p>" und "<h2>" sind hier zur Demonstration minimal verändert worden:

Browser-Ansicht für selbes EuGH-Urteil wie eben, nur dass für p und h2 der Zeilenvorschub ausgeschaltet wurde (CSS-Anweisung: float: left).

Ein Mensch könnte mit wenig Mühe immer noch herausfinden, welche Begriffe und Sätze welchen Platz in der Chronologie haben. Für einen Computer ist dies jedoch quasi nicht möglich. Man müsste schon einen Browser simulieren und dann den Text herausschneiden. Aber dabei würden entweder Informationen verloren gehen, wenn der Rohtext erhalten wird. Oder es sind wieder unbrauchbare Informationen da, weil der Markup-Code erhalten wird, den man vorher auch schon hatte.

Zwischenfazit:

Das Extrahieren von Rohtext aus formatiertem Text ist eine große Herausforderung, die an sich nicht zufriedenstellend gelöst ist. Formatierter Text ist jede Art von Dokument, das nicht als Rohtext vorliegt. Somit ist es der Normalfall, dass die Vorverarbeitung von einem vorliegenden Text große Mühen bereitet.

Abkürzungen, Aufzählungen und dergleichen

Im Beispiel eben hat eine Aufzählung bereits dafür geführt, dass ein naiver Algorithmus, der das Satzende an einem Punkt erkennt, scheitert. Die Angabe "1. Hier steht der 1. Listenpunkt." würde zu den folgenden drei Sätzen führten:

  1. "1."
  2. "Hier steht der 1."
  3. "Listenpunkt.

Offensichtlich ist dies Unsinn. Offensichtlich ist dies aber nur für den Menschen. Weil wir alle verwöhnte Nutzer von Computersystemen sind, regen wir uns oft fürchterlich über solche maschinellen Unzulänglichkeiten auf. Das ändert aber nichts daran, dass Computerprogramme diese Probleme haben.

Solche einfachen Konstellationen sind gut beherrschbar, dann allerdings nicht zuverlässig.

Wie sieht es mit diesem rein fiktiven Satz aus? "Die Forderung des Herrn X. geht auf im Abs. 3 des Art. 4 DS-GVO." Um den Satz mit einer KI sinnvoll deuten zu können, sollten die Abkürzungen "Abs." und "Art." bekannt sein. Ebenso sollte "X." als Abkürzungen für einen Namen (bzw. Pseudonymisierung des Namens) verstanden werden können.

Diese Problemchen bei der Vorverarbeitung von Texten, bevor diese in ein KI-Modell gekippt werden, sorgen für falsche Antworten. Ein Beispiel wurde am Anfang des Beitrags gegeben.

Was bedeutet das für generische KI-Modelle wie ChatGPT?

Grundlegende Textvorverarbeitungen kann der Motor von ChatGPT sicher ausreichend gut. Jedenfalls sollte das für Standardformate und Allgemeinthemen gelten. Für juristische Texte wie die EuGH-Urteile reicht das allerdings nicht aus. Während viele Menschen wissen, was die Abkürzung „.Abs.“ bedeutet, wird es bei „ABl.“ schon dünner, weil dann beispielsweise auch Datenschutzbeauftragte als Experten, die keine Juristen sind, oft kein vertieftes Wissen haben. Ich jedenfalls musste spätestens bei „Slg.“ nachschlagen, was die Bedeutung ist. Nun weiß es auch mein KI-System, das EuGH-Urteile einlesen und verarbeiten kann (mehr dazu demnächst).

Allgemeine KI-Sprachsysteme splitten also Sätze zwangsläufig falsch auf. Das mag in fünf oder zig Jahren anders sein, aktuell ist es aber so. Auch das Verarbeiten von spezifischem HTML-Code kann von einem spezifischen konventionellen Programm besser geleistet werden als von jeder allgemeinen KI.

Mein autarkes, selbst entwickeltes und datenfreundliches KI-System kann juristische Texte besser als ChatGPT verstehen.

Gemäß meiner Tests mit EuGH-Urteilen und juristischen Fragestellungen,

Domänenspezifisches Wissen beherrschen allgemeine KI-Systeme wie ChatGPT ebenfalls nicht sonderlich gut. Die Halluzinationen bleiben aus. In dem Zusammenhang sei angemerkt, dass das Einkippen von eigenen Dokumenten in ChatGPT im kostenpflichtigen Modell die Kosten deutlich erhöht (wenn auch pro Anfrage nur um einen kleinen Betrag), weil jedes Eingabedokument über dessen Umfang (Token) abgerechnet wird.

Weitere Aspekte können hier nicht vertieft werden, spielen aber ebenso eine Rolle und vergrößern das Problem bei Nutzung allgemeiner KI-Systeme. Stichpunktartig seien nur genannt:

  • Synonyme;
  • Deutsche Sprache (die meisten LLMs sind hauptsächlich in Englisch, Chinesisch o. ä. trainiert);
  • Kontextwissen (Beispiel: „Unterschriften“ am Ende eines EuGH-Urteils ist kein semantisch relevantes Element);
  • TF*IDF-Analysen zur Vorverarbeitung von Texten für FAQ-Systeme.

Die blinde Begeisterung vieler wird demnächst durch eine partielle Enttäuschung abgelöst werden, auch wenn moderne KI-Systeme erstaunliche Dinge leisten. Auch wenn einige jetzige Errungenschaften im Textverstehen deutlich besser als vor zwei Jahren sind, sind sie nicht ausreichend zuverlässig, um sie als solide Basis für eine professionelle Arbeit nehmen zu können.

Spezifische Probleme können am besten spezifisch gelöst werden. Nichts ist umsonst. Wer glaubt, dass eine KI alles kann, der wird sehr bald auf den Boden der Tatsachen zurückgelangen. Aktuell verarbeite ich ca. 25000 EuGH-Urteile, um diese zu tiefer gehend zu analysieren und gut durchsuchbar zu machen. Im Zuge dessen kommen zahlreiche spezielle Optimierungen ins Spiel, die die Datenqualität deutlich erhöhen. Wie heißt es so schön: GIGO (Garbage In – Garbage Out) oder gar SISO (fragen Sie eine KI, wenn Sie nicht selbst drauf kommen. Am besten dann auch gleich nach "Slg." fragen, sofern Sie zur Mehrheit der Menschen gehören, die diese Abkürzung nicht kennen.)

Die beste Alternative zu ChatGPT

Die aus meiner Sicht beste Alternative zu ChatGPT, die zuverlässigere Ergebnisse erzielen kann, und vor allem datenfreundlich ist, sieht beispielsweise so aus:

  • Auswahl eines geeigneten Sprachmodells, das deutsch sehr gut versteht.
  • Optimale Vorverarbeitung der gegebenen Dokumente durch Verwenden allgemeiner Bibliotheken, die konkret genutzt und konfiguriert werden.
  • Vorbereitung der Frage des Nutzers (Prompt), um beispielsweise synonyme Fragen und Schreibfehler erkennen zu können.
  • Feintrainieren des lokalen Sprachmodells, um Halluzinationen zu vermeiden.
  • Intelligente Suche in der Wissensbasis, um die besten Ergebnisse zu bedingen.
  • Kombination der intelligenten Suche mit einer konventionellen, auch intelligenten Suche.
  • Nutzerfreundliche und adäquate Darstellung der Ergebnisse, um den Nutzer zu führen, damit er oder sie nicht aufhört zu denken.
  • Auswahl einer geeigneten Hardware, entweder im eigenen Haus oder gemietet bei einem deutschen Provider.

All diese Punkte sind gelöst. Das führt dazu, dass der Aufwand zur Einführung einer Lösung in Ihrem Unternehmen gering ist. Wirtschaftliche Lösungen mit hohem Nutzen sind so möglich. Die intelligente Suche (Vektorsuchmaschine) plus die konventionelle Suche (N-Gramme, TF*IDF, Soundex, Edit Distance etc.) sind für diesen Blog bereits realisiert worden und ergänzen aus rein pragmatischen Gründen die WordPress-Suche. WordPress findet bei Schreibfehlern und komplexeren Suchen wie "Was sind IP-Aderssen?" (hier absichtlich falsch geschrieben) keinen Treffer, meine Suche aber schon. Die Suche läuft auf einem supergünstigen Server eines deutschen Providers und kann weiter ausgebaut werden, etwa zum Frage-Antwort-System mit abstraktiven Ergebnissen. Abstraktiv heißt, dass die Antworten in eigenen Worten erfolgen und nicht als Zitat (das wäre extraktiv).

Fazit

Exaktheit kann nur durch konkrete Optimierung für einen gegebenen Anwendungsfall erzeugt werden. Bei Systemen Künstlicher Intelligenz verhält es sich nicht anders als beim Mensch. Ein Spezialist kann eben auf seinem Fachgebiet mehr leisten als Albert Einstein, der ganz gute Ergebnisse auf einem Fachgebiet erzielen kann, mit dem er sich bisher noch nicht tiefer beschäftigt hat.

⚡ DSGVO WEBSITE-CHECK

Ist Ihre Website DSGVO-konform?

Website in wenigen Sekunden auf DSGVO-Compliance prüfen

Jetzt Website prüfen
✓ kostenfrei ✓ Sofort-Ergebnisse ✓ Keine Anmeldung

Ein Investment am Anfang ermöglicht viele Freiheitsgrade und erfüllte Wünsche. Schon nach kurzem zahlt sich das aus. Qualität hat ihren Preis. Keine Qualität hat einen höheren Preis. Weil eine schlechte gegenüber einer guten Lösung über die Zeit immer wieder jeweils ein bisschen Geld kostet, ist sie mittelfristig teurer und langfristig viel teurer.

Wie immer gilt: Der einfachste Weg ist, außer bei ganz offensichtlichen Aktivitäten wie Atmen usw., fast immer eine mäßige und oft eine schlechte Wahl. Wenn es auf Zuverlässigkeit ankommt, kann ein allgemeiner Chatbot nicht ernsthaft infrage kommen. Spezialisierte Systeme hingegen können zuverlässig sein. Die Reise zum Mars ist nicht mehr erforderlich, um so ein System haben zu können. Vielmehr ist nur eine Reise in die nähere Umgebung in Deutschland notwendig, um es bildlich zu beschreiben.

Kernaussagen dieses Beitrags

Generische KI-Systeme wie ChatGPT sind für die Interpretation juristischer Texte nicht zuverlässig genug, da sie oft falsche Antworten liefern können.

KI kann zwar juristische Texte verarbeiten, aber es gibt Herausforderungen bei der Genauigkeit, da KI-Systeme manchmal falsche Informationen enthalten können.

KI braucht Texte in handliche Häppchen zerlegt, um sie verstehen und Fragen dazu beantworten zu können.

Es ist schwierig, Sätze in Texten zu erkennen, weil es keine eindeutigen Regeln gibt und Satzendezeichen manchmal andere Funktionen haben.

Es ist schwierig, Computerprogramme zu trainieren, um Formatierungen in Texten richtig zu verstehen, weil sie Abkürzungen, Aufzählungen und andere Elemente oft falsch interpretieren.

Allgemeine KI-Systeme wie ChatGPT sind für einfache Texte gut geeignet, aber bei komplexen Themen wie juristischen Texten hapert es an Fachwissen und Verständnis.

Statt auf allgemeine Chatbots wie ChatGPT zu setzen, ist es besser, eine maßgeschneiderte Lösung mit einem spezialisierten Sprachmodell und intelligenter Suche zu entwickeln, um zuverlässigere und datenschutzfreundliche Ergebnisse zu erzielen.

Über diese Kernaussagen

KI-Beratung, KI-Lösungen

Umfassende Beratung (fachlich, rechtlich, technisch):

Leistungsangebot:

  • Erstberatung inkl. Machbarkeitsaussagen
  • Schulungen und Workshops für Führungskräfte, Berufsgeheimnisträger, Angestellte, Entwickler
  • KI-Lösungen mit und ohne ChatGPT/Azure. Cloud oder eigener KI-Server

Ihre Anfrage

Oder Mail an ki@dr-dsgvo.de

Wer schreibt hier?
Mein Name ist Klaus Meffert. Ich bin promovierter Informatiker und beschäftige mich seit über 30 Jahren professionell und praxisbezogen mit Informationstechnologie. In IT & Datenschutz bin ich auch als Sachverständiger tätig. Ich stehe für pragmatische Lösungen mit Mehrwert. Meine Firma, die IT Logic GmbH, berät Kunden und bietet Webseiten-Checks sowie optimierte & sichere KI-Lösungen an.
Bitte nutzen Sie bei Verwendung meiner Ergebnisse die Quellenangabe oder verlinken Sie gut wahrnehmbar auf diesen Artikel:
Einen Kurzlink oder eine Bestätigung für Ihre Quellenangabe erhalten Sie kurzfristig auf Anfrage. Ein Teilen oder Verteilen dieses Beitrags ist natürlich ohne weiteres möglich und gewünscht.

Schreiben Sie einen Kommentar

Ihre Mail-Adresse wird nicht veröffentlicht.

Der Standort eines Servers und dessen Relevanz für die DSGVO