Kan ChatGPT pålideligt analysere juridiske tekster?

ChatGPT kan behandle juridiske tekster, men på grund af hallucinationer og overlappende almindelsesviden med specifikt kontekstuel viden, er en pålidelig analyse ofte ikke til stede. Resultaterne er derfor ofte fejlagtige og bør betragtes med forsigtighed.

Hvilke risici er der ved brug af AI-systemer til juridisk tekstanalyse?

De primære risici ligger i risikoen for misrepræsentationer, hallucinationer og ukorrekt fortolkning af juridiske tekster. Dette kan føre til fejlagtige afgørelser og juridiske problemer, især hvis resultaterne anvendes uden menneskelig gennemgang.

Hvordan dekonstruerer en AI en juridisk tekst?

En AI nedbryder juridiske tekster i håndterbare bidder, typisk i sætninger. Disse sætninger opdeles derefter i mindre dele for at passe ind i hukommelsen af et AI-model. AI'en bruger disse sætninger til at besvare spørgsmål ved at identificere det passende stykke og udtrække svaret herfra.

Hvilke udfordringer er der ved sætningsanalyse i juridiske tekster?

Analyse af juridiske tekster er kompleks, da sætninger ofte er formateret med forkortelser eller uden tydelige sætningsafslutninger. Dette skaber vanskeligheder for AI'en til at genkende den korrekte sætningsgrænse og korrekt fortolke den semantiske indhold. AI'en skal derfor tage hensyn til de specifikke formateringsmærker i dokumentet.

Hvorfor er fortolkningen af juridiske tekster svær for AI?

KI-systemer har ofte svært ved at forstå de komplekse strukturer og forkortelser i juridiske tekster, såsom EU-domsafgørelser. Dette skyldes primært den utilstrækkelige behandling af formatering og forkortelser.

Hvilke særlige udfordringer opstår der ved bearbejdning af juridiske tekster til AI-modeller?

Juridiske tekster indeholder ofte specielle forkortelser, formatering og en høj kompleksitet, som udgør en særlig udfordring for generelle AI-modeller som ChatGPT. De generelle models manglende domænespecifikke viden fører ofte til misforståelser.

Hvorfor er ChatGPT upålidelig til fortolkning af juridiske tekster?

ChatGPT leverer ofte forkerde svar på grund af mangel på specialisering og forståelse af komplekse juridiske sammenhænge. Dens generelle natur er uegnet til præcis analyse af juridiske dokumenter.

Hvilke foranstaltninger er nødvendige for at udvikle en pålidelig AI-løsning til juridiske tekster?

For en pålidelig løsning er det afgørende at vælge en specialiseret sprogmodel, omhyggelig databehandling, finjustering af modellen og kombination med intelligent søgning. Derudover er det vigtigt at have en brugervenlig præsentation af resultaterne.

Kunstig intelligens til tolkning af juridiske tekster

Under alle dagslige sprogbrug accepteres uklarheder eller er de ofte uden betydning, men for jurister er præcise forståelse af en udtryks mening afgørende. Juridiske tekster kan analyseres med hjælp af kunstig intelligens (AI). Kan det med generiske AI-systemer som ChatGPT lykkes tilfredsstillende? Hvilke alternative muligheder findes der?

Opdatering Maj 2024

En rimelig anvendelse er sammenføring af juridiske tekster. Enten i formel eller borgerlig sprog, hen til "gaden sprog". Med egne AI-sprogsmodeller, der kører på egne AI-servere, blev dette konkret realiseret for hessiske love og for GDPR.

Resultat for forretningsreglerne i GDPR. ([1])

Motivation

Søgemaskinen Bing fra Microsoft bruger et sprogmodel af OpenAI's tilgængelighed. Microsoft har nyligt indgået en samarbejdsaftale med OpenAI. Bing-søgen svarende med falske svar, selv om den kan trække på bedste hardware og software. Grunden er nok, at Bing skal være universelt brugbar og ikke specifikt tilpasset dit firma.

Microsoft Bing's avancerede sprogmodel svarede på en første spørgsmål og en semantisk ligelig og næsten identisk anden spørgsmål med hver sin modsatende og i begge tilfælde forkert svar.
Se følgende eksempler. Svaret på Bing er dog meget hurtigt tilgængeligt, ingen virkelig trøst.

Her et eksempel på det mislykkede, ikke-specialiserede sprogmodel af Bing. Spørgsmålet er egnet til at blive besvaret af en eksperter i retten. Jeg selv havde dette gjort tilfældigt allerede.

Spørgsmål: kan man ved hjælp af IP-adressen finde stedet for en server?

Svar fra Bing (Sidst opdateret: 31.08.2023): Yes. Ved siden af er også nyere versioner af Bing eller Copilot ikke i stand til at give en tillidensværdig svar.

Falsk svar fra Bing på spørgsmålet: *kan man ved hjælp af IP-adressen bestemme placeringen af en server?* (billedet blev automatisk oversat).

Denne svar er forkert. En IP-adresse er ikke tilfældigt nok til at kunne fastlægge en servers placering med sikkerhed. I stedet kan tilknytningen af en IP-adresse til en server ændre sig i det hele taget. For at klargøre: Her drejer det sig om servere, ikke om internettilladelser fra private PCs!

Nu bliver samme spørgsmål stillet til Bing. Men et enkelt ord udskiftes, nemlig "efter" med "ved hjælp af".

Spørgsmålet lyder nu: kan man ved hjælp af IP-adressen finde stedet for en server?

Svaret skulle være det samme, men det er ikke (i sandhedens mening, for Bing svarer med "ikke").

Falsk svar fra Bing på spørgsmålet: *kan man med hjælp af IP-adressen finde stedet af en server?* (billedet blev automatisk oversat).

Selv denne svar er forkert, for den efter "ikke" givne begrundelse er også forkert. Selv med en dommerens afgørelse kan ofte ikke fastslås hvilken IP-adresse et server var tilknyttet på et bestemt tidspunkt X. For det ville, hvis vi tager Google som eksempel på en operatør af hundrede tusinde servere, skulle Google protokolere hver eneste IP-adresse for hver eneste server til enhver tid. Hvis dette sker er ikke muligt at følge med. I hvert fald synes det usandsynligt. På grund af massive lastfordeling har et større operatørs netværk af servere meget dynamisk karakter. Desuden giver Bing en begrundelse, der i dele ikke passer til spørgsmålet. Og "ikke" som kort svar passer ikke til begrundelsen.

Indledning

Når man bruger tredjepartssystemer som Microsoft eller OpenAI, stilles der ikke blot spørgsmålet om kvaliteten af resultaterne, men også om lovligheden. For eksempel blev der nyligt anklaget mod openJur, fordi de havde publiceret et allerede offentliggjort dom på deres egen hjemmeside. Dette var fordi navnet på en person var nævnt i dommen. At indsætte sådanne data eller også forretningshemmeligheder eller andre fortrolige data i en chatbot, øger ikke lovsikkerheden.

Datavenlige AI-systemer øger ikke kun rettens sikkerhed væsentligt, men ofte også kvaliteten af resultaterne.
Meningsfulde er selvstændige AI-systemer.

Under jurister er der allerede flere gange blevet diskuteret, i hvilken udstrækning kunstig intelligens kan hjælpe til at få fat i domme hurtigere. Herfor egnede sig f.eks. NLP-opgaven med tekstresumé. NLP står for "Natural Language Processing" og søger at fange betydningen af naturlige sprog. NLP-tilgange findes allerede længe.

Der er noget nyt i, at med store språkmodeller (LLM = Large Language Model) nu selv komplekse tekster kan behandles i en kvalitet, der aldrig før er nået. Derved lykkedes det f.eks. at programmere en Frage-Antwort-Assistenten til denne blog. Resultaterne er overraskende. Men der skal indgribes for at undgå falske påstande i systemet. Ofte er de såkaldte hallucinationer ansvarlige for uønskede resultater.

Hallusinationer opstår derfor, fordi almindeligt viden i et sprogmodel optræder sammen med en specifik viden fra konteksten overlagt. Konteksten er f.eks. alle bidrag på Dr. GDPR. Et sprogmodel lærer nemlig ikke kun grammatikken af en sprog som tysk, men også optager fakta-viden i forbindelse hermed. Her kan falske fakta være blevet optaget. Et godt eksempel er den meget udbredte, men grundfalske påstand, at cookies tekstfiler er.

I følgende forklaret, hvad sværhederne er ved at analysere og maskinelt forstå juridiske tekster. Disse sværheder gælder for alle slags tekster, men særligt i retsområdet kræves en højeste mulige præcisionsgrad.

Efterfølgende bliver spørgsmålet diskuteret, om allmindelige AI-systemer som ChatGPT kan være egnet til at behandle juridiske tekster ordentligt.

Hvordan behandles tekster af en AI?

Indenfor før vi træder dybere ind i AI-spesifikke processer skal det afgjort blive klaret hvordan tekster overhovedet forarbejdes. Ærinder også længe siden har opgaven ved tekstbehandling af maskiner bestået i at fange betydningen.

Eksempelvis ved Europæiske Domstols afgørelser bliver kompleksiteten af problemet tydeligt. Europæiske Domstol giver mulighed for at tilgå de tidligere offentliggjorte afgørelser online. For eksemplet vælges et hurtigt valgt afgørelse.

Et EU-domstolsafgørelse er en HTML-side. HTML indeholder ved siden af ren tekst også layout-instruktioner som fet skrift, afsnit, overskriftsinstruktioner, automatisk nummerering osv.

En ren tekst fra dommen ville være f.eks. denne sætning: "Ifølge § 5a, stk. 2 DRiG er emnet for universitetsstudiet – hvor mindst to år skal være tilbragt i Tyskland – obligatoriske fag og specialområder med valgmuligheder

Denne sætning indeholder tydeligvis ikke Eksklusiv tegn, som en menneske ville tænke over. Teknisk set er allerede tegnet efter „§“-symbol et Sonderzeichen. Det drejer sig ikke om et tomrum i teknisk forstand, men om et tegn, der ser ud til at være et tomrum.

Et eksempel fra en dom (denne gang af byretten i Bonn) for en sætning, der ikke er en:

Sagen, der ingen er. I hvert fald hænger grammatikken her forkert. Kilde: Dom fra byret i Bonn på openJur. (billedet blev automatisk oversat).

Hvorfor er det vigtigt? For at forstå dette, er det vigtigt at forstå processen ved tekstbehandling af en AI. I almindelighed kræves følgende trin, så en AI kan behandle tekster og f.eks. besvare spørgsmål til dem:

Indlæs tekst (her: EU-domstolens afgørelse i HTML-format, muligvis også PDF-dokumenter og andre filformer).
Udtrække tekst fra Roh.
Teksten i små, håndlige stykker dele op, der passer i en AI-modells lagring. De bedste AI-modeller havde tilbageholdt 1024 tegn lagringskapacitet for indgangen. I mellemtiden er denne kapacitet blevet firefold. Det her beskrevne eksempel-domme har ca. 44.000 tegn.
Indsamle brugerindgang, f.eks. en spørgsmål, og konverter til talrækker, der kan forstås af et AI-model.
Jævnfør de enkelte bitte fra trin 3 med brugerens indtastning fra trin 4 og formuler en svar.

Spørgsmål om et bestemt dokument (her: EU-dom) bliver besvaret af en AI, ved at først finde det bedste tekstfragment (eller nogle få) til spørgsmålet og derefter trække svaret ud af dette fragment.

Et dokument bliver bearbejdet ved at det først bliver delt op i små stykker. Et stykke slutter ved en sætning.
Lykkesager kan overlappe, så enkelte sætninger kan dele med hinanden.

Den grundlæggende mindste meningsfulde enhed er en sætning. Derfor bliver i ovennævnte skridt 3 teksten delt op i sætninger. Det ville være meget uanstændigt, hvis en sætning blev delt i to halve og dermed landede på to forskellige informationsbrikker.

Find sprog i tekster

Som beskrevet, bør en AI vide, hvilke sætninger et tekst består af. Uden kendsgerning om de enkelte, rent fra hinanden adskilte sætninger opstår normalt semantisk fald. Desuden bliver AI-modeller tilkendt på bestemte opgaver som sammenfattelse af tekst eller også til det generelle tekstforståelse ved hjælp af eksempler trænet. Dermed gives sætninger eller udsagn som eksempler og den fra mennesket som træner forestillede ideale svar medgivet.

Hvad er en sætning? Denne spørgsmål kan ikke let besvares. En sætning slutter normalt med et sætnings tegn. Men det sker også ofte ikke. Der kommer til, at sætnings tegnet ofte også er et ikke-sætningstegn. I forkortelser bruges punktet som forkortelseskilletegn. Det bliver sværere, når en forkortelse står på slutningen af en sætning og det forkortelseskilletegn og det sætnings tegn er forenet i et tegn.

Et eksempel på en sætning fra et EU-domfæld, hvor de fleste mennesker ikke kan nå at læse den helt igennem eller forstå dens betydning første gang:

I den retslige sag C-358/08 vedrørende en forudgående afgørelsesbehandling efter artikel 234 EG, indlagt af House of Lords (Storbritannien) med afgørelse af 11. juni 2008, modtaget af domstolen den 5. august 2008, i sagen Aventis Pasteur SA: imod OB: udstedes DOMSTOLEN (Store Kammer) under deltagelse af præsident V. Skouris, kammerpræsidenterne A. Tizzano, J. N. Cunha Rodrigues, K. Lenaerts (rapportør), og E. Levits samt dommere C. W. A. Timmermans, A. Rosas, A. Borg Barthet, M. Ilešič, J. Malenovský, U. Lõhmus, A. Ó Caoimh og J.-J. Kasel, Generaladvokat: V. Trstenjak, Kancellir: L. Hewlett, hovedbestyrelsesmedlem, på grund af skriftlig procedure og efter muntlige forhandlinger den 30. juni 2009, med hensyn til erklæringerne – fra Aventis Pasteur SA, repræsenteret af G. Leggatt, QC, i selskab med P. Popat, Barrister, – fra OB, repræsenteret af S. Maskrey, QC, i selskab med H. Preston, Barrister, Den Europæiske Kommission, repræsenteret af G. Wilms som befuldmægtiget, efter høring af Generaladvokatens slutanbefalinger i plenarforsamlingen den 8. september 2009 følgende dom:
Ekstrakt fra et EU-dom til sagen C-358/08. Beskrivelsen er her komprimeret. Skærmbilledet af denne sætning i originalformatering kræver en følt DIN A4-side.

At en sætning uden punktum kan slutte, men mennesket har ikke problemer med det, skyldes det brugen af markup (HTML-kode) ved EU-domme. Her et eksempel (uddrag fra et tilfældigt EU-dom):

Blik på en dom fra EU-domstolen i browseren (uddrag). Kilde: https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909. (billedet blev automatisk oversat).

Efter ordet "dom" står lige så lidt punktum som efter ordet "grund til dom". På den anden side bruger nummerering en punkt, der kun tjener som tegn på nummerering og ikke som slutning.

Hvis man kigger på HTML-koden til det tekst, der lige er vist, finder man følgende:

HTML-Code eines EuGH-Urteils (Auszug). Kilde: view-source:https://eur-lex.europa.eu/legal-content/DE/TXT/HTML/?uri=CELEX:62008CJ0345&qid=1693473655909.

Ordet „Urteil“ og „Entscheidungsgründe“ er placeret på forskellige linjer ved hjælp af layout-anvisninger. HTML-taggen "<p>" sikrer en afsnit (p = Paragraph) og HTML-taggen "<h2>" sikrer en overskrift af niveau 2 (h = Headline). Dette er i hvert fald en meget udbredt konvention. Fordi HTML-tags kan tilpasses på hver enkelt hjemmeside efter eget valg.

Gennem to små ændringer i layouten af HTML-siden opstår følgende visning, der altid har samme kildekode som blot vist blevet. Kun layout-instruktionerne (CSS-instruktioner) for tagsene "<p>" og "<h2>" er her til demonstration minimal ændret:

Browser-visning af samme EU-dom som oven, kun at for p og h2 er linjevæksten udsat (CSS-anvisning: *float: left*). (billedet blev automatisk oversat).

En mand kunne med lidt besvær stadig finde ud af, hvilke begreber og sætninger har hvilken plads i kronologien. For en computer er dette dog næsten umuligt. Man skulle selv være nødt til at simulere en browser og så herefter skære tekstet ud. Men herved ville enten informationer gå tabt, hvis den oprindelige tekst blev beholdt. Eller også ville der igen være ubrugelige informationer, fordi markering-koden blev beholdt, som man allerede havde før.

Sammenfatning:

Ekstrahering af roh-tekst fra formatet tekst er en stor udfordring, der ikke tilfredsstiller selv på sig selv. Formatet tekst er enhver slags dokument, som ikke fremgår i roh-texstform. Således er det den almindelige praksis, at Vorbehandling af et eksisterende tekst medfører store vanskeligheder.

Forkortelser, liste og lignende

I dette eksempel har en liste allerede ført til, at en naiv algoritme, der kan identificere slutningen af en sætning på et bestemt punkt, mislykker. Angivelsen "1. Her står den første listenpunkt." ville føre til de følgende tre sætninger:

"1."
"Her står den første."
"Lyttedetaljen.

Det er tydeligtvis dumt. Det er dog kun til mennesket. Fordi vi alle er vant af at bruge computersystemer, bliver vi ofte meget vred over sådanne maskinelle ulemper. Det ændrer dog ikke på, at computerprogrammer har disse problemer.

Så enkle konstellationer er godt at styre, men ikke tilførligt tillidensværdige.

Hvad med denne helt fiktive sætning så? "Folketingets krav til Herr X. ophører i afsnit 3 af artikel 4 i GDPR." For at sætningen kan tolkes på en meningsfuld måde ved hjælp af en AI, skal man kende forkortelserne "afs." og "art.". Desuden bør "X" forstås som en forkortelse for et navn (eller pseudonymisering af navnet).

Dette lille problem ved forarbejdning af tekster, før de bliver indsættet i et AI-model, resulterer i fejlagtige svar. Et eksempel blev givet på begyndelsen af artiklen.

Hvad betyder det for generiske AI-modeller som ChatGPT?

Grundlegende Tekstforberedelser kan motoren fra ChatGPT sikkert godt nok. I hvert fald skal det gælde for standardformater og almindelige emner. For juridiske tekster som EU-domme er det dog ikke tilstrækkeligt. Mens mange mennesker ved, hvad betydningen af „.Abs.“ er, bliver det tyndere ved „ABl.“, da f.eks. også dataskyddsombud som ikke-jurister ofte ikke har dybere viden. Jeg selv måtte i hvert fald efter at have læst om „Slg.“ efterlønne, hvad betydningen er. Nu ved også mit AI-system, der kan indlæse og forarbejde EU-domme (mere om det snart).

Almindelige AI-sprogsystemer splitter derfor nødvendigvis sætninger forkert op. Det må være anderledes i fem eller tyve år, men sådan er det nu. Også behandling af specifik HTML-kode kan gøres bedre af en specifik konventionel program end af enhver almindelig AI.

Mit selvstændige, selvudviklede og datavenlige AI-system kan jeg forstå juridiske tekster bedre end ChatGPT.
Ifølge mine tester med EU-domme og retlige spørgsmål til

Domænespecifik viden behersker allgemeine AI-systemer som ChatGPT også ikke særligt godt. Hallucinationerne forbliver ude. I dette sammenhæng skal bemærkes, at indsættelsen af egne dokumenter i ChatGPT i det betalingskrævende model øger omkostningerne markant (selvom kun med en lille sum per forespørgsel), fordi hver indtastedokument over dens størrelse (token) faktureres.

Andre aspekter kan ikke herudover nærmere beskrives, men de spiller også en rolle og forøger problemet ved brug af almindelige AI-systemer. Enkelte eksempler på dette er:

Synonym;
Tysk sprog (de fleste LLMs er primært trænet på engelsk, kinesisk osv.);
Sammenhængskendselighed (eksempel: "Underskrifter" på slutningen af en dom fra Den Europæiske Domstol for Menneskerettigheder er ikke semantisk relevant);
TF-IDF-analyser til forberedelse af tekst til FAQ-systemer.

Den blinde begejstring mange har snart vil afløses af en delvis skuffelse, selv om moderne AI-systemer gør fantastiske ting. Selv om nogle af de nuværende bedrifter i tekstforståelse er tydelig bedre end for to år siden, er de ikke tilstrækkeligt pålidelige til at kunne tages som en solid grundlag for en professionel arbejde.

Try Offline-AI now

Optimizable and with full data control. Economical even in continuous operation.
Fully-controlled data center, no third-parties.

Try now

Specifikke problemer kan bedst løses på en specifik måde. Der er ikke noget gratis. Den, der tror, at en AI kan gøre alt, vil snart blive bragt tilbage til Bonden af Sandhed. Jeg arbejder i øjeblikket med ca. 25.000 EU-domme for at analysere og gøre disse data bedre søgbare. I denne proces kommer mange specifikke justeringer op, der væsentligt forbedrer datakvaliteten. Som det hedder så smukt: GIGO (Garbage In – Garbage Out) eller SISO (spørg en AI, hvis du ikke selv kan komme på det). Am besten også efter "Slg." spørge, hvis du tilhører den største del af mennesker, der ikke kender denne forkortelse

Den bedste alternative til ChatGPT

Den bedste alternative til ChatGPT, der kan opnå mere pålidelige resultater og er især datavenlig, ser så ud som følger:

Vælg et passende sprogmodel, der godt forstår tysk.
Optimal forberedelse af de givne dokumenter ved hjælp af almindelige biblioteker, der bruges og konfigureres specifikt.
Forberedelse af brugerens spørgsmål (prompt), så man f.eks. kan genkende synonymer og skrivefejl.
Træning af det lokale sprogmodel til at undgå hallucinationer.
Inteligent søgning i kundskabsbasen for at opnå de bedste resultater.
Kombination af intelligente søgning med en traditionel, også intelligente søgning.
Brugervenlig og tilpasset præsentation af resultaterne, for at lede brugeren, så han eller hun ikke opgiver at tænke.
Vælg en passende hardware, enten hjemme eller udlejet hos en tysk leverandør.

Alle disse punkter er løst. Det fører til, at indsatsen for at indføre en løsning i dit firma er lav. Økonomiske løsninger med høj værdi er så mulige. Den intelligente søgning (vektorsøgemaskine) plus den konventionelle søgning (N-grammer, TF*IDF, Soundex, Edit Distance osv.) er allerede realiseret på dette blog og supplerer ud fra pragmatiske grunde WordPress-søgningen. WordPress finder ikke en match når der er skrevet fejl og kompleksere søgninger som "Hvad er IP-adressen?" (her bevidst forkert skrevet) ingen match, men min søgning gør det alligevel. Søgningen kører på en superbillig server fra en tysk leverandør og kan videreudvikles, fx til et spørgsmål-antwoord-system med abstraktive resultater. Abstraktivt betyder, at svarene skrives i eget ord og ikke som citat (det ville være extraktiv). ([1])

Konklusion

Præcisionskunst kan kun opnås ved konkrete optimeringer til en bestemt anvendelse. Ved systemer for Kunstig Intellighed følger det samme mønster som hos mennesket. En specialist kan nemlig på sit felt gøre mere end Albert Einstein, der også kan opnå gode resultater på et felt, hvor han ikke har været særligt dybt involveret før.

Et investering tidligt ud i tiden giver mange frihedsgrader og opfyldte ønsker. Allerede efter kort tid betaler det sig ud. Kvalitet har sit pris. Ingenting har et højere pris end kvalitet. Fordi en dårlig løsning sammenlignet med en god løsning over tiden igen og igen koster lidt penge, er den midtertidskort tidligere og langsigtede meget dyrere.

Som altid gælder: Den enkleste vej er næsten altid en moderat og ofte en dårlig valg, når det kommer til Tilførlighed. En almindelig chatbot kan ikke seriøst være i spil. Specialiserede systemer kan dog være tillidsværdige. Rejsen til Mars er ikke længere nødvendig for at få sådan et system. I stedet er kun en tur i nærheden af Tyskland nødvendig, for at beskrive det billedligt.