Kan ChatGPT juridische teksten betrouwbaar analyseren?

ChatGPT kan juridische teksten weliswaar verwerken, maar vanwege hallucinaties en het overschrijven van algemene kennis met specifiek contextueel kennis, is een betrouwbare analyse vaak niet aanwezig. De resultaten zijn daarom vaak onjuist en moeten met voorzichtigheid worden beschouwd.

Wat zijn de risico's bij het gebruik van AI-systemen voor juridische tekstanalyse?

De belangrijkste risico's liggen in de mogelijkheid van onjuiste verklaringen, hallucinaties en de onnauwkeurige interpretatie van juridische teksten. Dit kan leiden tot verkeerde beslissingen en juridische problemen, vooral als de resultaten zonder menselijke controle worden gebruikt.

Hoe ontleedt een AI een juridische tekst?

Een AI breek juridische teksten op in behapbare hapjes, meestal in zinnen. Deze zinnen worden vervolgens in kleinere delen opgedeeld om ze in het geheugen van een AI-model te passen. De AI gebruikt deze zinnen om vragen te beantwoorden door het passende hapje te identificeren en daaruit het antwoord te extraheren.

Welke uitdagingen zijn er bij de syntactische analyse van juridische teksten?

De analyse van juridische teksten is complex, omdat zinnen vaak met afkortingen of zonder duidelijke eindtekens worden geformatteerd. Dit leidt tot moeilijkheden voor de AI om de juiste zinssnede te herkennen en de semantische inhoud correct te interpreteren. De AI moet daarom de specifieke formatteerkenmerken van het document in overweging nemen.

Waarom is de interpretatie van juridische teksten moeilijk met AI?

AI-systemen hebben vaak moeite met het begrijpen van de complexe structuren en afkortingen in juridische teksten, zoals HvJ-arresten. Dit komt vooral door onvoldoende verwerking van opmaak en afkortingen.

Welke specifieke uitdagingen zijn er bij het verwerken van juridische teksten voor AI-modellen?

Juridische teksten bevatten vaak specifieke afkortingen, formaten en een hoge complexiteit, wat een bijzondere uitdaging vormt voor algemene AI-modellen zoals ChatGPT. Het ontbreken van domeinspecificiteit van de modellen leidt vaak tot verkeerde interpretaties.

Waarom is ChatGPT onbetrouwbaar bij de interpretatie van juridische teksten?

ChatGPT levert vaak onjuiste antwoorden vanwege het gebrek aan specialisatie en het begrip van complexe juridische verbanden. Zijn algemene aard is ongeschikt voor de precieze analyse van juridische documenten.

Welke maatregelen zijn nodig om een betrouwbare AI-oplossing voor juridische teksten te ontwikkelen?

Voor een betrouwbare oplossing is het essentieel om een gespecialiseerd taalmodel te selecteren, zorgvuldige data-preprocessing uit te voeren, het model te finetunen en dit te combineren met intelligente zoekfunctionaliteit. Daarnaast is een gebruiksvriendelijke presentatie van de resultaten belangrijk.

Artificiële intelligentie voor de interpretatie van juridische teksten

Terwijl onnauwkeurigheden in de dagelijkse taal worden geaccepteerd of vaak niet van belang zijn, is een nauwkeurig begrip van de betekenis van een uitspraak voor juristen fundamenteel. Juridische teksten kunnen met een AI worden geanalyseerd. Kan dit met generieke AI-systemen als ChatGPT voldoende goed lukken? Welke alternatieven zijn er?

Actualisatie Mei 2024

Een bruikbaar toepassingsgeval is de samenvatting van juridische teksten. Kies je tussen formeel of burgerfreundelijk taalgebruik, tot "straattaal". Met eigen AI-taalmodellen die op eigen servers draaien, werd dit concreet gerealiseerd voor Hessische wetten en de GDPR.

Resultaat voor de regelgevingstekst van de AVG. ([1])

Motivatie

De zoekmachine Bing van Microsoft maakt gebruik van een taalmodel uit de collectie van OpenAI. Microsoft is onlangs een samenwerking aangegaan met OpenAI. De Bing-zoekopdracht antwoordt met vals berichten, hoewel het op beste hardware en software kan terugvallen. De reden daarvoor is waarschijnlijk dat Bing universeel moet zijn en niet specifiek op uw bedrijf afgestemd is.

Het geavanceerde taalmodel van Microsoft Bing antwoordt op een eerste vraag en de semantisch gelijke en bijna identieke tweede vraag met elk een tegenovergestelde en in beide gevallen onjuiste antwoord.
Zie het volgende voorbeeld. De antwoord op Bing is in elk geval snel beschikbaar, geen echte troost.

Hier een voorbeeld van het mislukken van de geavanceerde, ongespecialiseerde taalmodel van Bing. De vraag is geschikt om door een deskundige te worden beantwoord in een rechtszaak. Ikzelf had dit toevallig al gedaan.

Vraag: kan aan de hand van de IP-adres de locatie van een server worden bepaald?

Antwoord van Bing (Datum: 31.08.2023): Yes. Btw zijn ook recentere versies van Bing of Copilot niet in staat om betrouwbaar te antwoorden.

Foute antwoord van Bing op de vraag: *kan aan de hand van de IP-adres het standpunt van een server worden bepaald?* (afbeelding is automatisch vertaald).

Deze antwoord is onjuist. Een IP-adres is niet geschikt om betrouwbaar de locatie van een server te bepalen. Integendeel, kan de toewijzing van het IP-adres aan een server op elk moment veranderen. Om duidelijkheid te scheppen: hier gaat het om servers, niet om internetverbindingen van particuliere computers!

Nu wordt dezelfde vraag aan Bing gesteld. Maar één woord wordt uitgewisseld, namelijk "aan de hand" door "met behulp van".

De vraag luidt nu: kan met behulp van de IP-adres het locatie van een server worden bepaald?

De antwoord zou hetzelfde moeten zijn, maar dat is het niet (in de letterlijke zin van het woord, want Bing antwoordt met "nee").

Foute antwoord van Bing op de vraag: *kan met behulp van de IP-adres de locatie van een server worden bepaald?* (afbeelding is automatisch vertaald).

Deze antwoord is ook fout, want de reden die wordt gegeven na het antwoord "niet" is ook fout. Met een rechterlijk vonnis kan vaak niet worden vastgesteld welke IP-adres een server op een bepaald moment X what toegewezen. Want daarvoor zou Google bijvoorbeeld, als voorbeeld van een bedrijf dat duizenden servers heeft, moeten registreren welk IP-adres per server op elk moment is gebruikt. Of dit gebeurt is niet te achterhalen. In ieder geval lijkt het onwaarschijnlijk. Omdat er zware belastingverdelingen zijn, is het netwerk van grote bedrijven erg dynamisch. Bovendien geeft Bing een reden die in delen niet op de vraag aansluit. Ook "niet" als antwoord past niet bij de reden.

Inleiding

Bij het gebruik van derde systemen zoals die van Microsoft of OpenAI komt naast de kwaliteit van de resultaten ook de vraag naar de rechtmatigheid aan bod. Onlangs werd er bijvoorbeeld een aanklacht tegen openJur ingesteld, omdat deze een reeds gepubliceerd vonnis op hun eigen website ook publiceerden. Omdat onterecht in het vonnis de volledige naam van een persoon what genoemd. Het invoeren van dergelijke gegevens of bedrijfsgeheimen of andere vertrouwelijke gegevens in een chatbot verhoogt de rechtszekerheid in ieder geval niet.

Gegevensvriendelijke kunstmatige intelligentiesystemen verhogen niet alleen de rechtszekerheid aanzienlijk, maar vaak ook de kwaliteit van de resultaten.
Bedoeld zijn zelfvoorzienende AI-systeem[s].

Onder juristen is al vaak gedebatteerd over de mate waarin kunstmatige intelligentie kan helpen om vonnissen sneller te kunnen lezen. Hiervoor is bijvoorbeeld de NLP-opgave van het samenvatten van tekst geschikt. NLP staat voor "Natural Language Processing" en probeert de betekenis van natuurlijke taal te begrijpen. NLP-anslagen bestaan al lang.

Nieuw is dat met krachtige taalmodellen (LLM = Large Language Model) nu zelf complexe teksten in nog nooit bereikte kwaliteit verwerkt kunnen worden. Daarmee lukt het bijvoorbeeld, een vraag-antwoord-assistent voor deze blog te programmeren. De resultaten zijn verbijsterend. Alleen moet er ingegrepen worden om misleidende uitspraken te voorkomen. Vaak zijn de zogenaamde hallucinaties verantwoordelijk voor ongewenste resultaten.

Hallucinaties ontstaan doordat het algemeenweten van een taalmodel wordt overvleid door specifiek weten uit de context . De context zijn bijvoorbeeld alle bijdragen op Dr. GDPR. Een taalmodel leert namelijk niet alleen de grammatica van een taal zoals het Nederlands, maar neemt ook feitenweten aan. Hierbij kunnen foutieve feiten worden opgenomen. Een goed voorbeeld is de breed verspreide, maar grondfouteuze uitspraak dat cookies tekstbestanden zijn.

In het volgende wordt uitgelegd wat de moeilijkheden zijn bij het analyseren en computertypisch begrijpen van juridische teksten. Deze moeilijkheden gelden voor alle soorten teksten, maar vooral in het rechtelijke domein is een uiterste nauwkeurigheid vereist.

Na dato wordt de vraag besproken of algemene AI-systeem zoals ChatGPT geschikt zouden kunnen zijn om juridische teksten correct te verwerken.