Terwijl onnauwkeurigheden in de dagelijkse taal worden geaccepteerd of vaak niet van belang zijn, is een nauwkeurig begrip van de betekenis van een uitspraak voor juristen fundamenteel. Juridische teksten kunnen met een AI worden geanalyseerd. Kan dit met generieke AI-systemen als ChatGPT voldoende goed lukken? Welke alternatieven zijn er?
Actualisatie Mei 2024
Een bruikbaar toepassingsgeval is de samenvatting van juridische teksten. Kies je tussen formeel of burgerfreundelijk taalgebruik, tot "straattaal". Met eigen AI-taalmodellen die op eigen servers draaien, werd dit concreet gerealiseerd voor Hessische wetten en de GDPR.
Resultaat voor de regelgevingstekst van de AVG. ([1])
Motivatie
De zoekmachine Bing van Microsoft maakt gebruik van een taalmodel uit de collectie van OpenAI. Microsoft is onlangs een samenwerking aangegaan met OpenAI. De Bing-zoekopdracht antwoordt met vals berichten, hoewel het op beste hardware en software kan terugvallen. De reden daarvoor is waarschijnlijk dat Bing universeel moet zijn en niet specifiek op uw bedrijf afgestemd is.
Het geavanceerde taalmodel van Microsoft Bing antwoordt op een eerste vraag en de semantisch gelijke en bijna identieke tweede vraag met elk een tegenovergestelde en in beide gevallen onjuiste antwoord.
Zie het volgende voorbeeld. De antwoord op Bing is in elk geval snel beschikbaar, geen echte troost.
Hier een voorbeeld van het mislukken van de geavanceerde, ongespecialiseerde taalmodel van Bing. De vraag is geschikt om door een deskundige te worden beantwoord in een rechtszaak. Ikzelf had dit toevallig al gedaan.
Vraag: kan aan de hand van de IP-adres de locatie van een server worden bepaald?
Antwoord van Bing (Datum: 31.08.2023): Yes. Btw zijn ook recentere versies van Bing of Copilot niet in staat om betrouwbaar te antwoorden.

Deze antwoord is onjuist. Een IP-adres is niet geschikt om betrouwbaar de locatie van een server te bepalen. Integendeel, kan de toewijzing van het IP-adres aan een server op elk moment veranderen. Om duidelijkheid te scheppen: hier gaat het om servers, niet om internetverbindingen van particuliere computers!
Nu wordt dezelfde vraag aan Bing gesteld. Maar één woord wordt uitgewisseld, namelijk "aan de hand" door "met behulp van".
De vraag luidt nu: kan met behulp van de IP-adres het locatie van een server worden bepaald?
De antwoord zou hetzelfde moeten zijn, maar dat is het niet (in de letterlijke zin van het woord, want Bing antwoordt met "nee").

Deze antwoord is ook fout, want de reden die wordt gegeven na het antwoord "niet" is ook fout. Met een rechterlijk vonnis kan vaak niet worden vastgesteld welke IP-adres een server op een bepaald moment X what toegewezen. Want daarvoor zou Google bijvoorbeeld, als voorbeeld van een bedrijf dat duizenden servers heeft, moeten registreren welk IP-adres per server op elk moment is gebruikt. Of dit gebeurt is niet te achterhalen. In ieder geval lijkt het onwaarschijnlijk. Omdat er zware belastingverdelingen zijn, is het netwerk van grote bedrijven erg dynamisch. Bovendien geeft Bing een reden die in delen niet op de vraag aansluit. Ook "niet" als antwoord past niet bij de reden.
Inleiding
Bij het gebruik van derde systemen zoals die van Microsoft of OpenAI komt naast de kwaliteit van de resultaten ook de vraag naar de rechtmatigheid aan bod. Onlangs werd er bijvoorbeeld een aanklacht tegen openJur ingesteld, omdat deze een reeds gepubliceerd vonnis op hun eigen website ook publiceerden. Omdat onterecht in het vonnis de volledige naam van een persoon what genoemd. Het invoeren van dergelijke gegevens of bedrijfsgeheimen of andere vertrouwelijke gegevens in een chatbot verhoogt de rechtszekerheid in ieder geval niet.
Gegevensvriendelijke kunstmatige intelligentiesystemen verhogen niet alleen de rechtszekerheid aanzienlijk, maar vaak ook de kwaliteit van de resultaten.
Bedoeld zijn zelfvoorzienende AI-systeem[s].
Onder juristen is al vaak gedebatteerd over de mate waarin kunstmatige intelligentie kan helpen om vonnissen sneller te kunnen lezen. Hiervoor is bijvoorbeeld de NLP-opgave van het samenvatten van tekst geschikt. NLP staat voor "Natural Language Processing" en probeert de betekenis van natuurlijke taal te begrijpen. NLP-anslagen bestaan al lang.
Nieuw is dat met krachtige taalmodellen (LLM = Large Language Model) nu zelf complexe teksten in nog nooit bereikte kwaliteit verwerkt kunnen worden. Daarmee lukt het bijvoorbeeld, een vraag-antwoord-assistent voor deze blog te programmeren. De resultaten zijn verbijsterend. Alleen moet er ingegrepen worden om misleidende uitspraken te voorkomen. Vaak zijn de zogenaamde hallucinaties verantwoordelijk voor ongewenste resultaten.
Hallucinaties ontstaan doordat het algemeenweten van een taalmodel wordt overvleid door specifiek weten uit de context . De context zijn bijvoorbeeld alle bijdragen op Dr. GDPR. Een taalmodel leert namelijk niet alleen de grammatica van een taal zoals het Nederlands, maar neemt ook feitenweten aan. Hierbij kunnen foutieve feiten worden opgenomen. Een goed voorbeeld is de breed verspreide, maar grondfouteuze uitspraak dat cookies tekstbestanden zijn.
Viele Artikel in PDF-Form · Kompakte Kernaussagen für Beiträge · Offline-KI · Freikontingent+ für Website-Checks



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
