AI-system ger oförutsägbara resultat. Problemet kan inte lösas för AI-system med ett allmänt syfte (ChatGPT), men det kan lösas för företagsägda AI-system med ett specifikt syfte. En skyldighet till transparens kan härledas enbart från GDPR. Operatörer och leverantörer av AI-system måste uppfylla ytterligare skyldigheter enligt AI-lagen.
Inledning
Hur kan man göra ett AI-system transparent? Svaret på den här frågan för allmänna AI-system är: inte alls. Detta beror på att dessa allmänna system, inklusive ChatGPT, fungerar på grundval av neurala nätverk. Hur detta nätverk fungerar är välkänt. Om man skulle skriva ner en formel som beskriver nätverket skulle ingen förstå den, än mindre kunna läsa den ordentligt.
Dataskyddsförordningen föreskriver i Artikel 5 plikten till transparens vid behandling av personuppgifter. Denna gäller således för alla AI-system, där personuppgifter behandlas. Detta är alla system som har tagit emot personuppgifter under träning eller användarinput (ofta via en prompt) personuppgifter. Det är en sanning, som (bara?) den hamburgiska dataskyddsoffentlige i farligaste väg negerat.
I artikel 5 punkt 1 litra d i GDPR krävs att uppgifter ska vara sakligt riktiga, alltså korrekta. Det gäller för alla personuppgifter i AI-system. Senast vid tidpunkten för inferens, alltså när ett AI-system genererar en utgång, bör denna lagstadga uppfyllas.
Den AI-förordningen (AI Act) definierar återigen plikter, som särskilt leverantörer av AI-system ska uppfylla. Särskilda plikter föreskrivs för högrisk-AI. Denna typ av system torde vara undantaget i praktiken.
De flesta företag som använder kognitivt system är ägare. För ägare gäller betydligt färre skyldigheter än för leverantörer. En ägare är enligt art. 3 § 4 AI-VO ett företag eller en organisation, om man "använder ett kognitivt system på egen hand". Allt som går utöver detta faller under begreppet leverantör (art. 3 § 3 AI-VO).
Författaren fick en idé om att öka insynen i och dokumentationen av AI-system vid ett möte med AI-expertgruppen vid den statliga dataskyddskommissionären i Niedersachsen, där författaren är medlem. Författaren har också tidigare publicerat en bok om testdriven programvaruutveckling.
Å ena sidan är transparens en extern presentation av AI-resultat. Men den interna transparensen, dvs. för den som använder AI, är nästan ännu viktigare: Hur fungerar AI? Vilka resultat ger den?
Bevis på att AI:s utdata är korrekta
Generellt sett är det inte möjligt att helt säkerställa att en AI bara spenderar korrekt. Det är dock möjligt att komma nära. Innan ett förslag läggs fram i detta avseende ges ett exempel av den mycket bra DEEPL-översättaren (från Tyskland!), som själv använder AI och, precis som alla andra AI-system, ibland gör misstag:

DEEPL ombads att översätta en text som innehöll ett monetärt belopp. DEEPL översatte 1 050,00 euro på ett sådant sätt att eurobeloppet ersattes med ett pundbelopp. Detta är uppenbarligen fel. För den som vill pröva själv: Det beror på den övergripande texten! Detta har delvis dolts i skärmdumpen ovan eftersom det var halvkänslig information. Du kommer förmodligen att få ett korrekt resultat om du bara skriver in den sista meningen i DEEPL. Men om ingresstexten är annorlunda kan felet uppstå. Bara detta visar hur icke-transparenta AI-system fungerar.
Fel kan därför inte undvikas. Hur kan du ändå uppfylla din skyldighet att vara transparent och säkerställa att AI-utdata är korrekta i så stor utsträckning som möjligt?
Svaret är: Genom testfall.
Testfall är par av faktiska inmatningar och målutmatningar. Ett testfall består av en faktisk inmatning och en faktisk utmatning som accepteras som bra. AI-förordningen (AI-VO) har uppenbarligen till och med tagit hänsyn till detta:
Detta beror på att artikel 3 nr 53 i AI-förordningen definierar termen "plan för ett test i verkligheten" som "ett dokument som beskriver mål, metodik, geografisk, populations- och tidsmässig omfattning, övervakning, organisation och genomförande av ett test i verkligheten".
Artikelnr 56 definierar AI-kompetens som "förmågan, kunskapen och förståelsen att tillhandahållare, operatörer och berörda parter i enlighet med sina respektive rättigheter och skyldigheter inom ramen för denna förordning har möjlighet att använda AI-system på ett sakkunnigt sätt samt att bli medvetna om de möjliga riskerna och skadorna som AI kan orsaka
Med hjälp av testfall kan operatörer (och i ännu högre grad leverantörer) bli mer medvetna om möjligheterna och riskerna med den AI som de använder eller erbjuder.
Även Deepfakes kan så skapas enligt nr 60 i artikel 3 AI-VO. Här handlar det om ett "av AI framställt eller manipulerat bild-, ljud- eller videomaterial som liknar verkliga personer, föremål, platser, anläggningar eller händelser och där en person felaktigt skulle uppfattas som äkta eller sanningsenlig". Vid bildmodeller skulle man säkerställa att inmatning som riktar sig mot verkliga personer och syftar till att förtala dem, ska identifieras och förhindras på bästa sätt. I alla fall kan med hjälp av testfall redan dokumenteras var (ännu) svagheterna i AI-systemet ligger.
Testfall är ett utmärkt sätt att dokumentera kvaliteten på AI-system. De kan också göra sådana system mer transparenta och belysa deras återstående svagheter.
Skyldigheten för leverantörer av AI-system utan hög risk att bedöma sitt eget system, i enlighet med artikel 6.4 i AI-förordningen, kan också ske genom testfall.
Det riskhanteringssystem som avses i artikel 9.1 i AI-förordningen kan stödjas på ett mycket bra sätt med hjälp av testfall.
Många andra bestämmelser i AI-lagen ålägger leverantörer och operatörer av AI-system skyldigheter som kan tillgodoses genom dokumenterade testfall. Dessa inkluderar:
- Artikel 11.1 i AI-förordningen: teknisk dokumentation av ett AI-system med hög risk
- Art. 17 AI-VO: Kvalitetsstyrning
- Art. 53 AI-förordningen i sin helhet: Skyldigheter för leverantörer av AI-modeller för allmänna ändamål
- Artiklarna 91 och 101 i AI-förordningen kan få negativa konsekvenser för AI-leverantörer om deras dokumentation inte verkar vara tillräcklig.
- Enligt artikel 4 i AI-förordningen ska operatörerna också se till att deras anställda har tillräcklig AI-expertis.
Exempel på testfall
Hur ser ett testfall ut? Här är ett exempel på en språkmodell som är utformad för att svara på frågor:
Is (fråga = input)Should (svar = output från AI)Vad är cookies? Cookies är dataposter … Är cookies textfiler?
Enbart dessa två testfall visar tydligt att det inte är någon bra idé att vilja driva en universell chatbot. Ingen kommer att kunna skriva tillräckligt många testfall för att testa alla frågor i världen, dvs. för att säkerställa kvaliteten.
Ett AI-system bör därför vara anpassat till ett användningsfall eller en specialdomän. Detta gör det inte bara lättare att uppfylla de skyldigheter som följer av AI-förordningen, utan förbättrar också kvaliteten på resultaten. Kvaliteten på specialiserade chatbottar, till exempel för byggbranschen, är betydligt bättre än vad någon kommer att kunna uppnå med ChatGPT.
Antalet testfall bör vara rimligt högt. Ytterligare testfall kan läggas till gradvis. I synnerhet om ett AI-svar på en användarfråga inte var tillfredsställande, är det lämpligt att inkludera ett testfall för detta. Testfallet fungerar då åtminstone som dokumentation, men helst som en grund för att optimera AI-systemet och använda testfallet för att kontrollera att optimeringen har lyckats.
När man bygger ett kunskapssystem (som ett av många möjliga AI-system) finns det ett knep för att avsevärt öka kvaliteten på resultaten. Den så kallade RAG-metoden leder bara till begränsad framgång och till toppen. Vad detta handlar om kommer att beskrivas i en senare artikel,
Hur kan testfall köras igenom?
När testfallen har skapats måste de köras igenom. I konkreta termer innebär detta:
- Det definierade "faktiska" från ett testfall presenteras för AI som indata.
- AI:n svarar.
- AI-svaret jämförs med "målet" från testfallet.
Testfall kan köras automatiskt.
Människor behöver då bara se resultaten.
Det finns flera alternativ för att jämföra AI-utdata med det förväntade optimumet från testfallet:
- AI-analys med jämförelse av semantiska likheter
- AI-analys via en språkmodell (eller flera!)
- Konventionell analys (exempel: "Nej" i målet och "Yes" i AI-utdata motsäger varandra)
- Blandning av alla metoder (rekommenderas)
Det alternativ som nämndes i fall två, att använda flera språkmodeller samtidigt för att analysera testresultaten, fungerar mycket bra med modeller med öppen källkod. Kostnaderna är alltid desamma, nämligen noll (plus fasta driftskostnader för servern). Om ChatGPT skulle användas skulle kostnaderna bli ganska höga på lång sikt.
Med dessa analysmetoder kan testfall till stor del analyseras automatiskt. Människan kontrollerar sedan resultatet och kan skriva en slutsats i dokumentationen.
Sammandrag
AI-systemens funktionalitet kan dokumenteras med hjälp av testfall och på så sätt göras transparent. Transparensen omfattar naturligtvis även information om AI-systemets arkitektur. Detta kan enkelt göras om du själv använder AI-systemet. När det gäller tredjepartssystem som ChatGPT måste du förlita dig på den information som tillhandahålls av leverantören (OpenAI eller liknande).
Testfall kan också användas för att kontrollera och förbättra AI-resultatens korrekthet.
Testfall har därför flera fördelar och stor nytta. De skapas ofta snabbt. Med AI-stöd kan testfall till och med härledas automatiskt. Den mänskliga testfallsskaparen får på så sätt en mycket bra mall för testfall och kan åtgärda dem med en bråkdel av den manuella insats som annars skulle krävas.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
