Drücke „Enter”, um zum Inhalt zu springen.
Hinweis zu diesem Datenschutz-Blog:
Anscheinend verwenden Sie einen Werbeblocker wie uBlock Origin oder Ghostery, oder einen Browser, der bestimmte Dienste blockiert.
Leider wird dadurch auch der Dienst von VG Wort blockiert. Online-Autoren haben einen gesetzlichen Anspruch auf eine Vergütung, wenn ihre Beiträge oft genug aufgerufen wurden. Um dies zu messen, muss vom Autor ein Dienst der VG Wort eingebunden werden. Ohne diesen Dienst geht der gesetzliche Anspruch für den Autor verloren.

Ich wäre Ihnen sehr verbunden, wenn Sie sich bei der VG Wort darüber beschweren, dass deren Dienst anscheinend so ausgeprägt ist, dass er von manchen als blockierungswürdig eingestuft wird. Dies führt ggf. dazu, dass ich Beiträge kostenpflichtig gestalten muss.

Durch Klick auf folgenden Button wird eine Mailvorlage geladen, die Sie inhaltlich gerne anpassen und an die VG Wort abschicken können.

Nachricht an VG WortMailtext anzeigen

Betreff: Datenschutzprobleme mit dem VG Wort Dienst(METIS)
Guten Tag,

als Besucher des Datenschutz-Blogs Dr. DSGVO ist mir aufgefallen, dass der VG Wort Dienst durch datenschutzfreundliche Browser (Brave, Mullvad...) sowie Werbeblocker (uBlock, Ghostery...) blockiert wird.
Damit gehen dem Autor der Online-Texte Einnahmen verloren, die ihm aber gesetzlich zustehen.

Bitte beheben Sie dieses Problem!

Diese Nachricht wurde von mir persönlich abgeschickt und lediglich aus einer Vorlage generiert.
Wenn der Klick auf den Button keine Mail öffnet, schreiben Sie bitte eine Mail an info@vgwort.de und weisen darauf hin, dass der VG Wort Dienst von datenschutzfreundlichen Browser blockiert wird und dass Online Autoren daher die gesetzlich garantierten Einnahmen verloren gehen.
Vielen Dank,

Ihr Klaus Meffert - Dr. DSGVO Datenschutz-Blog.

PS: Wenn Sie meine Beiträge oder meinen Online Website-Check gut finden, freue ich mich auch über Ihre Spende.
Ausprobieren Online Webseiten-Check sofort das Ergebnis sehen

Konstgjord intelligens för tolkning av rättsliga texter

0
Dr. DSGVO Newsletter detected: Extended functionality available
More articles · Website-Checks · Live Offline-AI

Medan oegentligheter i vardagsprat accepteras eller ofta är obetydliga, är det exakta förståendet av innebörden i en uttalande grundläggande för jurister. Juridiska texter kan analyseras med hjälp av AI. Kan detta uppnås med generiska AI-system som ChatGPT? Vilka alternativ finns det?

Uppdatering Maj 2024

En användbar tillämpning är att sammanfatta juridiska texter. Alternativt i formell eller borgareljusvänlig språk, fram till "språket på gatan". Med egna AI-språkmallar som kör på egna AI-server, har detta specifikt för hessiska lagar och GDPR genomförts.

Resultat för förordningsdokumentet till GDPR.

Motivation

Sökmaskinen Bing från Microsoft använder ett språkmodell från OpenAIs katalog. Microsoft har nyligen ingått en partnerskap med OpenAI. Bing-sökningen svarar med falska uppgifter, trots att den kan dra tillgodo av bästa hårdvara och bästa mjukvara. Orsaken är troligtvis att Bing ska vara allmänt användbar och inte specifikt anpassad för ett företag.

Microsoft Bing:s högt utvecklade språkmodell svarar på en första fråga och en semantiskt lika och nästan identisk andra fråga med varsin motsatt och i båda fallen felaktig svar.

Se följande exempel. Ändå är svaret på Bing mycket snabbt tillgängligt, ingen verklig tröst.

Här ett exempel på hur det avancerade, icke-specialiserade språkmodellen från Bing misslyckas. Frågan är lämplig för att besvaras av en expert i domstol. Jag hade redan själv gjort detta slumpvis.

Kan man via IP-adressen bestämma var en server är belägen?

Bing svar (senast uppdaterad: 31.08.2023): Yes. Övrigt är även senare versioner av Bing eller Copilot inte i stånd att svara tillförlitigt.

Felaktig svar från Bing på frågan: kan man anhand av IP-adressen upptäcka var en server är belägen? (bilden översattes automatiskt).

Denna svar är felaktigt. En IP-adress är inte lämplig för att pålitligt bestämma platsen till en server. Istället kan den härledda kopplingen av IP-adressen till en server ändras när som helst. För tydlighet: Det handlar om servrar, inte om internetanslutningar från privata datorer!

Nu ställs samma fråga till Bing. Men ett enda ord byts ut, nämligen "enligt" mot "med".

Frågan är nu: kan man med hjälp av IP-adressen upptäcka platsen för en server?

Svaret borde vara detsamma, men det är inte (i den yttersta meningen, eftersom Bing svarar med "nej").

Felaktig svar från Bing på frågan: kan man med hjälp av IP-adressen upptäcka platsen för en server? (bilden översattes automatiskt).

Även denna svar är felaktigt, eftersom den förklaring som ges efter "inte" också är felaktig. Även med en domstolsbeslut kan ofta inte fastställas vilken IP-adress ett server var kopplad till vid tidpunkt X. För att detta skulle kunna ske, måste Google (som exempel på en operatör av hundratals tusentals servrar) protokollera IP-adressen för varje server vid varje tidpunkt. Om det sker är det inte möjligt att följa upp. I alla fall verkar det osannolikt. På grund av massiva lastbalanseringar är nätverket med servrar hos stora operatörer hög dynamiskt. Dessutom ger Bing en förklaring som delvis inte hör till frågan. Dessutom passar "inte" som kort svar inte till förklaringen.

Inledning

När man använder tredjepartsprogram som Microsoft eller OpenAI ställs det alltid frågan om lagligheten, oavsett hur bra resultaten är. Senast var det en anklagelse mot openJur, eftersom de publicerat ett redan publicerat domstolsutslag på sin egen hemsida. För att man hade felaktigt skrivit in den fullständiga namnet av en person i utslaget. Att lägga in sådana data eller affärshemligheter eller andra förtroendefulla data i en chattbot ökar inte rättsäkerheten.

Datorvänliga kisystem kan inte bara öka rättssäkerheten markant utan också kvaliteten på resultaten.

Menad är självförsörjande AI-system.

Bland jurister har man redan ofta diskuterat i vilken utsträckning artificiell intelligens kan hjälpa till att snabbare kunna ta del av domar. För detta är till exempel NLP-uppgiften textsammanfattning lämplig. NLP står för "Natural Language Processing" och försöker att fatta innebörden i naturliga språk. NLP-ansatser har funnits länge.

Nytt är att med kraftfulla språkmodeller (LLM = Large Language Model) nu även komplexa texter kan bearbetas i hittills aldrig nått kvalitet. Med det lyckas man till exempel programmera en Fråga-svar-assistent för detta blogg. Resultaten är imponerande. Men för att undvika falska påståenden måste man ingripa i systemet. Ofta är de så kallade hallucinationerna ansvariga för oönskade resultat.

Hallucinationer uppstår på så sätt att ett allmänt vetande hos ett språkmodell överlagras med ett specifikt vetande från kontexten överlagras. Kontexten är till exempel alla inlägg på Dr. GDPR. Ett språkmodell lär sig nämligen inte bara grammatiken i en språk som tyska, utan anpassar sig också med fakta vetande. Härvid kan falska fakta tas upp. Ett bra exempel är den vida spridda men grundfalska påståendet att cookies är textfiler se.

Det som följer förklarar svårigheterna vid analys och maskinläsning av juridiska texter. Dessa svårigheter gäller alla typer av texter, men särskilt inom rättsområdet krävs en högsta möjliga noggrannhet.

Efter det kommer frågan att diskuteras om allmänt AI-system som ChatGPT kan vara lämpliga för att hantera juridiska texter på ett ordnat sätt.

Hur behandlar en AI-texter?

Innan vi går in på AI-specifika processer måste det klarläggas hur texter överhuvudtaget hanteras. Även länge sedan bestod uppgiften att bearbeta text med hjälp av maskiner, med målet att fatta mening.

Med hjälp av exempel från domar från EU-domstolen blir komplexiteten i problemet tydlig. EU-domstolen ger möjlighet att online tillgång till tidigare publicerade domar. För exemplet väljs ett vilket som helst urtal.

Ett EU-dom är en HTML-sida. HTML innehåller förutom ren text också layout-anvisningar som fetstil, avsnitt, rubrikshuvuden, automatisk numrering med mera.

En ren text från domen skulle till exempel vara detta mening: "Enligt § 5a 2 DRiG är föremål för universitetsstudier – som minst två år har tillbringats i Tyskland – obligatoriska ämnen och huvudområden med valmöjligheter

Denna mening innehåller tydligt inga Särskilda tecken, som en människa skulle tänka på. Tekniskt sett är redan tecknet efter „§“-symbol ett Sonderzeichen. Det handlar inte om ett blanksteg i teknisk mening, utan om ett tecken som ser ut som ett blanksteg.

Ett ytterligare exempel från en dom (denna gång AG Bonn) för en mening som inte är det:

Satsen som inte är någon. I alla fall står grammatiken snett här. Source: Domstolsutslaget AG Bonn på openJur. (bilden översattes automatiskt).

Varför är det viktigt? För att förstå detta är det viktigt att förstå processen med textbearbetning av en AI. I huvudsak krävs följande steg för att en AI ska kunna bearbeta texter och till exempel svara på frågor:

  1. Läsa in text (här: EU-domstolens dom i HTML-format, tänkbara är också PDF-dokument och andra filformat).
  2. Utvärdera rohtexten.
  3. Teksten i handliga bitar dela upp, som passar in i lagringsutrymmet för ett AI-modell. De bästa AI-modellen hade tidigare ännu 1024 tecken lagringskapacitet för ingången. Nu har denna kapacitet fördubblats. Detta betraktade exempel-dom har ca. 44000 tecken.
  4. Ta emot användarinmatning, till exempel en fråga, och omvandla den till ett antalserie som ett AI-modell kan förstå.
  5. Jämför de enskilda bitarna från steg 3 med användarinput från steg 4 och formulerar en svar.

Frågor mot ett specifikt dokument (här: EU-domstols dom) besvaras av en AI genom att först det bästa citatet (eller några få) till frågan identifieras och sedan svaret hämtas från detta citat.

Ett dokument hanteras genom att det först delas upp i små bitar, ett sådant bit slutar vid en mening.

Lyckor kan överlappa varandra, så att enskilda meningar delas med varandra.

Den grundläggande minsta meningsfulla enheten är en mening. Därför delas i ovan nämnda steg 3 texten upp i meningar. Det vore mycket obehagligt om en mening skulle delas i två delar och därmed landa i två olika informationsbitar.

Förbistringar i texter identifiera

Som visas i bilden borde en AI veta vilka meningar ett text består av. Utan kännedom om de enskilda, rentav från varandra skiljda meningarna uppstår vanligtvis semantisk fall. Dessutom tränas AI-modeller för specifika uppgifter som till exempel sammanfattning av text eller allmänt textförståelse genom exempel. Därmed ges meningar respektive uttalanden som exempel och den från människan som tränare tänkta idealiska svar medges.

Vad är en mening? Denna fråga kan inte lätt besvaras. Vanligtvis slutar en mening med ett meningsslutstecken. Men ibland också inte. Dessutom är det så att meningsslutstecknet ofta även är ett icke-meningstecken. I förkortningar används punkten som förkortningsmärke. Det blir svårt när en förkortning står vid slutet av en mening och förkortningsmärket och meningsslutstecknet kombineras i ett tecken.

Ett exempel på en mening från ett Europiska domstolsutskottets dom, där de flesta människor inte lyckas läsa den till slutet eller förstå dess betydelse vid första anblicken:

I den rättsliga affären C-358/08 gällande ett förhandsavgörande enligt artikel 234 EG, som inlämnats av House of Lords (Storbritannien) med beslut den 11 juni 2008, till domstolen den 5 augusti 2008, i målet Aventis Pasteur SA mot OB: ger DOMSTOLEN (Högsta domstolen) under deltagande av ordföranden V. Skouris, kammarordföranden A. Tizzano, J. N. Cunha Rodrigues, K. Lenaerts (skribent), och E. Levits samt domarna C. W. A. Timmermans, A. Rosas, A. Borg Barthet, M. Ilešič, J. Malenovský, U. Lõhmus, A. Ó Caoimh och J.-J. Kasel, generaladvokat: V. Trstenjak, kansler: L. Hewlett, huvudförvaltaren, på grund av skriftlig procedur och efter muntlig förhandling den 30 juni 2009, med beaktande av de utlåtanden – från Aventis Pasteur SA, företrädd av G. Leggatt, QC, i sällskap med P. Popat, Barrister, – från OB, företrädd av S. Maskrey, QC, i sällskap med H. Preston, Barrister, Europiska kommissionen, företrädd av G. Wilms som ombud, efter att ha hört den generaladvokats slutliga förslag i sammanträde den 8 september 2009, följer härmed domen:

Utdrag från ett Eu-domstols dom i målet C-358/08. Beskrivningen är här komprimerad. Skärmdispositionen för detta stycke i originalformat kräver en uppskattad DIN A4-sida.

Att en mening utan punkt vid slutet kan sluta, och människan har inget problem med det, beror på den använda markeringen (HTML-kod) i domar från EU-domstolen. Här ett exempel (utdrag ur ett slumpvalt EU-domstolsdom):

Blick på ett EU-dom i webbläsaren (utdrag). Source: https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909. (bilden översattes automatiskt).

Efter ordet "dom" står lika litet ett punkt som efter ordet "motiverade beslut". Å andra sidan används numrering med en punkt, som endast är ett tecken för numrering och inte för att avsluta en mening.

Om man tittar på HTML-koden till det som precis visades, hittar man följande:

HTML-Code eines EuGH-Urteils (Auszug). Quelle: view-source:https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909.

Ord som "Urteil" och "Entscheidungsgründe" är placerade i olika rader genom layout-anvisningar. HTML-taggen "<p>" skapar en stycke (p = Paragraph) och HTML-taggen "<h2>" skapar en rubrik av nivå 2 (h = Headline). Detta är i varje fall en vida spridd konvention. För HTML-taggarna kan nämligen alla webbplatser anpassas hur som helst.

Genom två små ändringar i layoutet på HTML-sidan uppstår följande vy, som alltid har samma källkod som precis visats. Endast layout-anvisningarna (CSS-anvisningarna) för taggarna "<p>" och "<h2>" är här minimalt ändrade:

Webbläsarvy för samma EU-dom som tidigare, men där för p och h2 har den vertikala utrymmet till vänster avslåtts (CSS-anvisning: float: left). (bilden översattes automatiskt).

En människa kunde med liten möda ändå upptäcka vilka begrepp och meningar som har vilken plats i kronologin. För en dator är detta dock nästan omöjligt. Man skulle snart måste simulera en webbläsare och sedan skära ut texten. Men då skulle antingen informationen gå förlorad, om den ursprungliga texten sparades. Eller så vore det igen oanvändbara uppgifter, eftersom markeringsskriptet sparades, som man redan hade innan.

Sammanfattning:

Utvinnandet av rödtext från formatad text är en stor utmaning som inte tillfredsställer på sig själv. Formatad text är varje typ av dokument som inte finns i rödtextform. Därmed är det normalfallet att förbehandling av ett befintligt text medför stora ansträngningar.

Förkortningar, uppräkningslistor och liknande

I exemplet har en lista redan lett till att ett naiv algoritm som identifierar meningsslutet misslyckas. Uttrycket "1. Här står den första listpunkten." skulle leda till följande tre meningar:

  1. "1."
  2. "Här står den 1:a."
  3. "Lyssningspunkt.

Det är uppenbart att detta är nonsens. Det är bara för människor som det är uppenbart. Eftersom vi alla är överbeskäftade användare av datorsystem, protesterar vi ofta häftigt mot sådana maskinella brister. Men det ändrar inte på att datorprogram har dessa problem.

Så enkla konstellationer är bra att styra, men då inte tillförlitliga.

Hur ser det ut med denna helt fiktiva mening? "Förfrågan från herr X går upp i punkt 3 av artikel 4 i GDPR." För att kunna tolka meningen på ett meningsfullt sätt med hjälp av en AI bör förkortningarna "punkt" och "artikel" vara kända. Dessutom bör "X" förstås som förkortning för ett namn (eller pseudonymisering av namnet).

Detta problem vid förbehandling av texter innan de matas in i ett AI-modell orsakar felaktiga svar. Ett exempel gavs tidigare i artikeln.

Vad innebär det för generiska AI-modeller som ChatGPT?

Grundläggande Teknisk förberedelse kan maskinen från ChatGPT säkerställa tillräckligt bra. I alla fall borde det gälla för standardformat och allmänna ämnen. För juridiska texter som domar från EU-domstolen räcker det dock inte. Medan många människor vet vad betyelsen är med den förkortning ".Abs.", blir det redan tunnare vid "ABl.". Då till exempel även dataskyddsombud, som inte är jurister, ofta saknar djupgående kunskap. Jag själv fick spola efter att ha kommit till "Slg." och leta upp dess betydelse. Nu vet också mitt AI-system, som kan läsa in och bearbeta EU-domstolens domar (mer om det snart).

Allmänt språksystem för AI delar upp meningar tvungsenligt felaktigt. Detta kan vara annorlunda om fem eller tio år, men just nu är det så. Även bearbetning av specifik HTML-kod kan utföras bättre av ett specifikt konventionellt program än av någon allmän AI.

Min självständiga, egenutvecklade och datavänliga AI-system kan förstå juridiska texter bättre än ChatGPT.

Enligt mina tester med EU-domar och rättsliga frågeställningar,

Domänspecifik kunskap behärskar allmänt intelligenta system som ChatGPT inte särskilt bra heller. Hallucinationerna förblir ut. I sammanhanget ska noteras att inmatningen av egna dokument i ChatGPT i det kostnadslösa modellen ökar kostnaden markant (om än per begäran bara med en liten summa), eftersom varje inmatningsdokument över dess omfång (token) debiteras.

Andra aspekter kan inte behandlas här, men de spelar också en roll och förvärrar problemet vid användning av allmänt AI-system. En del exempel är:

  • Synonymer;
  • Tyska språk (de flesta LLMs är främst tränade på engelska, kinesiska osv.);
  • Sammanhangskunskap (exempel: "Underskrifter" i slutet av ett EU-domstolsdom är inte semantiskt relevanta element);
  • TF-IDF-analys för förberedelse av texter för FAQ-system.

Den blinda entusiasmen för många kommer snart att ersättas av en delvis besvikelse, även om moderna AI-systemer kan göra fantastiska saker. Även om vissa nuvarande prestationer i textförståelse är tydligt bättre än för två år sedan, räcker de inte till nog för att kunna tas som en solid grund för en professionell verksamhet.

Try Offline-AI now

Optimizable and with full data control. Economical even in continuous operation.
Fully-controlled data center, no third-parties.

Specifika problem kan bäst lösas med specifik kunskap. Ingenting är gratis. Den som tror att en AI kan göra allt, kommer snart nog tillbaka till Boden av verkligheten. Just nu bearbetar jag ca 25 000 domar från EU-domstolen för att analysera och göra dem mer sökbara. I samband med detta dyker det upp många specialanpassade justeringar som tydligt förbättrar datakvaliteten. Som man säger: GIGO (Garbage In – Garbage Out) eller SISO (fråga en AI om du inte själv kommer på det). Det är bäst att också fråga efter "Slg." om du tillhör den stora majoriteten som inte känner till denna förkortning

Bästa alternativet till ChatGPT

Den bästa alternativet till ChatGPT som kan uppnå mer tillförlitliga resultat och framför allt är datavänlig, ser ut såhär:

  • Val av ett lämpligt språkmodell som förstår tyska mycket bra.
  • Optimerad förberedelse av de givna dokumenten genom att använda allmänna bibliotek som sedan specifikt nyttjas och konfigureras.
  • Beredskap för att hantera användarens fråga (prompt) för att till exempel kunna identifiera synonymer och skrivfel.
  • Finajustera det lokala språkmodellen för att undvika hallucinationer.
  • Inteligent sökning i kunskapsbasen för att uppnå de bästa resultaten.
  • Kombination av intelligenta sökningar med en konventionell, även intelligent sökning.
  • Användarvänlig och tillfredsställande presentation av resultat för att leda användaren så att han eller hon inte slutar tänka.
  • Val av lämplig hårdvara, antingen i eget hus eller hyrt från en tysk leverantör.

Alla dessa punkter är lösta. Det leder till att ansträngningen för införande av en lösning i ditt företag är låg. Ekonomiska lösningar med högt värde är så möjliga. Den intelligenta sökningen (vektorsökare) plus den konventionella sökningen (N-grammer, TF-IDF, Soundex, Edit Distance etc.) har redan genomförts för detta blogg och kompletterar från rent praktiska skäl WordPress-söket. WordPress hittar inte träffar vid stavfel och komplexare sökningar som "Vad är IP-adresser?" (här medvetet felstavat) men min sökning gör det redan. Sökningen körs på en extremt billig server hos en tysk leverantör och kan ytterligare utvecklas, till exempel till ett fråga-svar-system med abstrakta resultat. Abstrakt betyder att svaren sker i eget ordval och inte som citat (det vore extraktiv). ([1])

Sammandrag

Precisering kan bara uppnås genom konkret optimering för ett givet tillämpningsfall. Vid system med konstig intelligens sker det inte annorlunda än vid människan. En specialiserad kan ju på sitt område presterar mer än Albert Einstein, som kan uppnå bra resultat på ett område där han tidigare inte har gått djupare in i.

Ett investering tidigt gerar många frihetsgrader och uppfyllda önskningar. Redan efter kort tid betalar sig det ut. Kvalitet har sin pris. Inga kvaliteter har ett högre pris. Eftersom en dålig lösning jämfört med en bra lösning över tiden alltid kostar lite pengar mer, är den långsiktigt mycket dyrare.

Som vanligt gäller det: Den enklaste vägen är oftast inte den bästa, utom när man har uppenbara aktiviteter som att andas med mera. När det handlar om tillförlitlighet kan en allmän chattbot aldrig vara ett allvarligt alternativ. Specialiserade system däremot kan vara tillförlitliga. Resan till Mars är inte längre nödvändig för att ha sådant system. Istället räcker det med en resa till närområdet i Tyskland, för att beskriva det bildligt.

About the author on dr-dsgvo.de
My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.

Bullshit Basics: Google Tag Manager är ingen cookiefri domän: ett bevis