Sensibel data hører ikke til i fremmede eller amerikanske hænder, som f.eks. ChatGPT, Microsofts, Googles eller AWS' skyen. Det er godt at selvstændige AI-systemer er muligt og tilgængeligt. Nu behøver forretningshemmeligheder ikke længere at blive indlogget i ChatGPT eller nogen skyen. Et eksperiment med en spørgsmål-svar-assistent til dette dataskydd-blog, Dr. DSGVO.
Indledning
Til nu har vi ikke været særligt bekymrede for vores Handelsgehemmeligheder, men måske er det nu vigtigt at sikre, at disse ikke spredes ud i verden. Der kan være rettligt bindende Vertraulichkeitsvereinbarungen for bestemte dokumenter. Om vores dokumenter stadig vil være fortrolige, hvis de uploades til ChatGPT's eller Googles cloud, tvivler jeg på det.
Datavenlig: Sikker for alle slags data, uanset om det drejer sig om persondata (dataskydd), fortrolige oplysninger eller erhvervsgehemmeligheder.
Datavenlig er mere end dataskyssende.
En ikke så sjælden hadet privacy kommer igen i bevidstheden for mange. Mens søgeresultatssider uden intervention kunne og kan behandle data, må de samme data fra AI-systemer ikke uden forespørgsel af dataskyddsmyndigheder behandles. Mærkeligt. Ligger også ved de muligheder, som kunstig intelligens tilbyder, men sikkerligen også ved den flok (hvis en myndighed undersøger, så kan vi det også gøre uden at være spilleren der går tabt, tænker sig nok nogle embedsfolk. Kun på den måde forstår jeg, hvorfor det inaktiveste dataskyddsland i verden (Hessen) også har en svag forsigtning i form af en anmodning til ChatGPT offentliggjort).
En almindelig anvendelse af kunstig intelligens er søgning efter dokumenter. Krævende er spørgsmål-til-svar-systemer eller søger, der direkte tekstforslag fra treff-dokumenter medbringer. Mit plan var at oprette en findesystem til Dr. DSGVO privacy-Blog, og det vil være Databarnevenlig.
Søgeassistenten for Dr. DSGVO skal give svar på spørgsmål i naturlig tale. Her et eksempel:
Kræver min hjemmeside et cookie-pop-up?
KIs svar er bedre end det fleste mennesker. Svar fra Dr. DSGVO AI: se nedenfor.
Som man kan gætte sig til ved spørgsmålet, er nogle spørgsmål formuleret anderledes end hvad der ville være akademisk korrekt. Mange spørger f.eks., om noget er i overensstemmelse med dataskyddet. Det menes ofte, om en bestemt behandling af personoplysninger er i overensstemmelse med DS-GVO.
Svaret skal give min AI selv sine ord, og det skal være baseret på de artikler, der er blevet offentliggjort under Dr. DSGVO indtil nu. Heri skulle Halluzinationer undgås, da det jo drejer sig om fakta og rettighedsmæssigt relevant viden. Halluzinationer er tilføjelser, der ikke eksisterer i virkeligheden. Hvor Halluzinationer kommer fra, vil jeg gå ind på i en fremtidig artikel. Dette kan man forklare med fundamenter og behøver ikke at trække på spekulationer.
Prototype beviser mulighed
At egne AI-systemer kan programmeres og på egen server lokal driftes, har jeg bevist ved en prototyp. Der einfache vej ville være en af følgende muligheder:
- Brug ChatGPTs interface, eller
- Kaste meget penge på problemet og glæde amerikanerne (Cloud)
- Ikke mere penge på problemet og købe dyre hardware.
Købe dyre hardware er en mulig vej for større selskaber, men ikke for mange små og mellemstore virksomheder (KMUs). Derfor har jeg valgt et andet Indsætning. Ved valget af hardware blev der tilsyneladende taget hensyn til Kostnaderne. Dertil skal man vide, at AI-beregninger foregår på Grafikkort, ikke på billeder eller tekst. I stedet bliver de mange tusinde miniprocesorer på et grafisk kort misbrugt til at udføre den rekenintensive arbejde af en AI hurtigere, end det ville være muligt for en enkelt Einstein-procesor i dit computer, selv om det er meget godt. Desværre koster grafikkort med meget hukommelse meget penge. Et grafisk kort med 48 GB hukommelse kostede blot nogle måneder siden 15.000 euro. For gode AI-modeller kræves dog ofte 96 GB eller også 400 GB dyreste hukommelse fra flere grafikkort (ikke harddisk-hukommelse og ikke billig RAM i computeren!).
Minde AI-systemer løber på Mindstehardware, når man betragter begrebet i sammenhæng med kunstig intelligens. Et eksempel: Søgningen efter (egne) dokumenter fra firmaets intranet ved hjælp af naturligt sprogfungerende spørgsmål fungerer på en leaset server af mini-klassen. Selvfølgelig kan også en egen firma-server anvendes. Det lykkes gennem udnyttelse af optimieringsforslag, der man kan købe sig til ved hjælp af yderligere teknisk kompleksitet. Når det er løst, er komplikationsproblemet løst.
Effektive AI-tilpassinger og sprogmodeller
Frage-Antwort-Assistenten kræver dog lidt mere end intelligente søger efter dokumenter. For det skal ikke blot dokumenter findes, men også indhold fra disse dokumenter udtrukkes og præsenteret som svar. Den enkle måde at gøre dette på er ved hjælp af en udtrækkende svar. Det er et ordret citat fra den oprindelige tekst. Sværere og bedre er abstraktive svarsystemer. De leverer et svar i egne ord og kan endda kombinere kendskaber fra flere dokumenter, for at levere et svar på nye måder. Svaret ville ikke være muligt med ét enkelt dokument. Manden ville have fundet, læst og intellektuelt bearbejdet mange dokumenter. AI'eren tager denne ubehagelige, tidssvarende og især af mange mennesker ikke udødelige indsats fra sig selv og løser problemet.
Min AI-systemer har krav om at være datavenlige. Desuden skal de kunne køre på så billig hardware som muligt. Begge ting er mulige, som praksissen viser.
Dybere indgående prøvede anvendelsesfald tidligere: Dokumentssøgning, tekstforståelse, billedskabing, billedanalyse, lydanvendelser.
Når vi taler om at søge og sammenfatte dokumenter, mener vi normalt dokumenter og svar i dansk sprog. For at sige det helt kort: Dansk er desværre ikke en verdenssprog. Derfor er det meget sværere at behandle danske tekster med en AI-anvendelse, end engelske eller kinesiske tekster (hvor sidstnævnte ville være mig også udmærket vanskeligt).
For mit AI-system skal derfor et elektronisk hjerne („model“) være nødvendigt, som forstår tysk og „kan tale“. Det øger kravene til en AI-arkitektur markant. Men også dette problem er løseligt, som jeg har fundet ud af. Det gennem tysk-anforderende AI-model har en størrelse, der ikke ville være brugbar på billig hardware.
For at bruge effektive AI-systemer på servere, der både er tilgængelige og i Tyskland tilgængelige (dataskydd! Forretningshemmeligheder! Fortrolighed!), kræver det en del tricks. Når jeg arbejdede med at oprette AI-løsningen, følte jeg mig som om jeg var ved at løse et problem fra "Jugend forscht!". Selv for den computerværdske er denne komplekse materie en udfordring, der til sidst kunne løses.
Her er nogle virkelige svar, der er blevet genereret af Dr. DSGVO til de nævnte spørgsmål fra min AI efter hundreder af bidrag.
| Spørgsmål | Svar gennem AI |
|---|---|
| Hvad betyder web tracking? | Webtracking omfatter overvågning og analyse af besøgsadfærd på en hjemmeside eller i en app. Dette kan ske ved hjælp af teknologier som cookies, serverlogge eller conversion tracking. Målet er at samle data om brugerne for at øge forståelsen af besøgsadfærden. |
| Er jeg følgende med i henhold til DSGVO? | Yes, trackingen er i overensstemmelse med DSGVO, hvis indsamling, opbevaring og behandling af personlige data sker efter kravene i DSGVO. Den personlige data-politik skal gøre det muligt for brugerne at få adgang til en tilsvarende erklæring, og tilladelsen skal være givet. Brug af cookies kræver som regel tilladelse. Google Analytics kan kun retfærdiggøres, hvis der er tilladelse eller der er tilstrekkelige garantier for, at modtageren af data, nemlig Google, ikke bruger disse data til egne formål. |
| Hvem er Max Schrems? | Max Schrems er en østrigsk dataskyddsaktivist og medstifter af organisationen noyb (None Of Your Business), der arbejder for at sikre, at dataskyddsinformationer bliver klart og let tilgængelige. Han er også bagmanden bag flere retssager mod Facebook og andre amerikanske selskaber på grund af overtrædelse af dataskyddet ved amerikanerne's overvågningsprogrammer. |
| Hvad er cookies? | Kiks er dataindstillinger, der bruges af en hjemmeside. De består af et par af data, en nøgle og en værdi. En kik bliver i slutbrugeren afhændet af browseren og lagret på dette sted. Kiks bliver ofte fejlagtigt betegnet som tekstfiler, hvilket dog ikke er korrekt. |
| Hvad er IP-adresser? | IP-adresser er en række tal, der tildeles hver enhed på internettet for at adskille den fra andre enheder på internettet. De er en slags adresse, der er bundet til hver enhed på internettet og tillader adgang til andre enheder på internettet. IP står for Internet Protocol. |
| Er IP-adresser personbevarende? | Yes, IP-adresser er persondata, fordi de kan pege direkte eller indirekte på en person. Dette blev bekræftet af EU-domstolen og Tysklands Højesteret i deres Breyer-afgørelser i 2016 og 2017. Cookies, der overføres sammen med en IP-adresse til en hjemmeside, er også persondata, fordi de er forbundet med den personlige netværksadresse. |
| Hvem gælder DS-beskyttelse for? Jeg vil gerne vide det præcist! | DSGVO gælder for alle virksomheder, der behandler persondata. Dertil hører både virksomheder, som er hjemmehørende i EU, samt sådanne, som er hjemmehørende udenfor EU, men behandler persondata fra EU-borgere. |
| Gælder DSGVO også for Dr. DSGVO? | Yes, DSGVO gælder også for Dr. DSGVO. Det er tydeligt beskrevet i virksomhedens privatpolitiske meddelelse, der driver Dr. DSGVO. Privatpolitikken kan findes på virksomhedens hjemmeside og indeholder alle relevante oplysninger om behandling af personlige data af virksomheden. |
| I hvilke tilfælde gælder DS-GVO'eren? | Den personlige datoforordning gælder, når en pårørende ser sin personlige ret til privatliv blev krænket og gør gald af at få en forbud mod dette. |
| Er Cloudflare ond? | Kilde dokumenterne tyder på, at Cloudflare ikke kan bruges i overensstemmelse med dataskyddsbestemmelserne. Der er også rygter om mulig manipulation af data ved hjælp af Cloudflare. |
| Er Klaus Meffert ond? | Baseret på de tilgjengelige kilder kan jeg ikke afgøre, om Klaus Meffert er ond. Der findes ingen oplysninger om hvad ondt betyder eller om Klaus Meffert nogensinde har været eller er ond. |
| Hvad er kunstig intelligens? | Kunstig intelligens (AI) er udviklingen af computere og software, der besidder menneskelignende evner som f.eks. læring, problemløsning, sprogforståelse og -produktion, sansning, handlingskontrol og selvstændige beslutninger. |
| Fungerer IT-sikkerhed uden privatlivsskygning? | IT-Sikkerhed og persondataskærmning er tæt forbundet, som fremgår af dette tekst. IT-Sikkerhed og persondataskærmning er i overensstemmelse med definitionen afhængige af hinanden, som nævnt i artikel 32 i den generelle forordning om dataskydd (DSGVO). Dataseskerheden skal være tilgængelig for ansvarlig person, som fremgår af ISO 27001. Persondataskærmningslovene, især DSGVO, regulerer beskyttelsen af data, der er personbevidst eller administreres i brugerdefinerede enheder. IT-Sikkerhed og persondataskærmning er således faktisk tæt forbundet. |
| Må normalfolk lovligt rådgive nogen? | Yes, normale mennesker må give juridisk råd, så længe de ikke foretager en dybere juridisk analyse af hverken individuelle eller særlige tilfælde. Persondata skal også kunne givet af nogen uden at være advokat. Det lovgivende direktiv synes forældet og overhalet. Som datalog ønsker jeg samme rettigheder som advokater, nemlig at beskytte mit arbejdspunkt mod uuddannede tjenesteydere. |
Disse svar blev ikke genereret med ChatGPT eller et andet tredje system. Dokumentets søgning blev også udført med en lokal vektor-søgemaskine og ikke Pinecone (datatilgang osv.).
Svarene passer til ganske godt det, jeg ville underskrive. Ved spørgsmålet, hvor DSGVO gælder, skulle man dog tilføje, at den ikke kun gælder for virksomheder. Sådanne detaljer kan en AI ikke rigtig levere på grund af de tilgængelige indgangsdata. Det ligger dog i første række ved indgangsdataene og i anden række også ved modellen, der endnu ikke er blevet optimaliseret.
Nogle spørgsmål er blevet formuleret "fældende", som f.eks. om DSGVO også gælder for Dr. DSGVO. Selvom min egen AI her ikke har en perfekt svar, ville jeg betegne det som meget godt. Måske andre har anderledes forventninger. Hvis nogen har væsentligt højere forventninger end mine synes at være, så synes et datadriftigt spørgsmål-antwoord-system ikke at være i spil.
Spørgsmålet om hvilke tilfælde DSGVO gælder er mere eller mindre tvetydigt. Dr. DSGVO KIs svar er godt, men ikke optimalt. For det nævnte svar skal man dog ikke skamme sig over, synes jeg. I hvert fald handler kritikken her på højeste niveau om sammenligningen "Gennemsnitsemennesket, der ikke har nogen anelse om dataskydd" med "Dataskydds-professionisten, der tror meget godt at vide" (med dataskydds-professionist mener jeg her hvem som helst, ikke en bestemt person, blot for at undgå misforståelser).
Om siden skal have brug for et cookie-pop-up:
Spørgsmål: Må min hjemmeside have en cookie popup? Antwort fra Dr. DSGVO AI: Nej, en hjemmeside behøver ikke at have et cookie popup. Cookies er kun et hjælpeværktøj til at identificere brugeren og få serveren til at sende bestemte oplysninger til brugeren. En hjemmeside kan også køre uden cookies, fx ved hjælp af JavaScript.
Svaret er i kerne rigtigt og overgår størstedelen af menneskeheden. Den teknologiinteresserede person med ansvar for privatlivsbeskyttelse ville dog stadig ikke være helt tilfreds med svaret.
Optimering af en AI
Inden for en AI kan det være langt til at få gode svar, men dette må blot gøres engang. Jeg har gået en del af denne vej. Resultaterne ovenfor stammer alle fra den endnu ikke meget optimerede AI-anvendelse.
Det problematiske ved sprogmodeller, der skal give svar i eget ordvalg, er en overlægning af indtastede fakta (kaldet kontekst) og det inderlige kendsgerning, som findes i ordsamlingen. At lære en sprog at gøre faktisk ikke lykkes uden at man på den måde tilgår kendsgerninger (eller fejleinformationer).
Det bliver tydeligst ved spørgsmålet, hvad cookies er. Det meste af internettet påstår forkert, at cookies er tekstfiler. Dette er forkert, som jeg flere gange har beskrevet og også bevist. I mit AI-sprogmodel, der bygger på mange tekster fra internettet, er denne fejleinformation fast indpint. Når jeg nu indsætter dine artikler fra Dr. DSGVO Blog i min AI, kommer disse dokumenter med din udtalelse "cookies er dataindstillinger" knap nok op imod den i sprogmodellen desværre fastlagte fejleoplysning om, at cookies er tekstfiler. Et sprogmodel kan også ikke altid godt skelne mellem konditionalis og indicativ. Den konditionalis til cookies havde jeg brugt to sætninger før. Alene det kunne allerede forvirre en AI, hvis denne artikel, som du lige læser, indsættes i et sprogmodel.
Alle mennesker er dummere, og det gælder i de fleste fagområder. AI-systemer kan være meget intelligente i mange fagområder og endda intelligentere end den mest begavede ekspert inden for et bestemt felt.
Bevis til første sætning: Kig dig omkring. Bevis til andet sætning: Se GPT-4 samt nogle af eksemplerne nedenfor.
Jeg har ikke ladet være med at begrænse konteksten for mit spørgsmål-svar-system, men har også foretaget nogle yderligere justeringer. Et AI-model kan dog ikke trænes uden omfang, hvis den nødvendige supercomputer ikke er til rådighed. Derfor var jeg nødt til at bruge ressourcenschonende procedurer. Det ligner en løb mod nye problemer hele tiden. For når et problem er fjernet, venter det næste, der udvikler sig fra løsningen af det foregående problem.
Eksempelvis: For at AI-Modeller skal være små nok til at passe i en grafikkortets hukommelse, der for to år siden var et high-end segment, findes der muligheden for kvantisering. I korthedel giver man ud fra tal med høj præcisions tal med lav præcision uden at kvaliteten af den kunstige intelligens bliver væsentligt påvirket. Nu understøtter aktuelle programmerbiblioteker desværre ikke alle træningsmetoder for AI-Modeller, hvis kvantiseringen anvendes. Derfor skal igen andre metoder indføres, der løser dette problem. Så men det giver også problemer ved fine-tuning osv.
Et eksempel på, hvordan optimering af en kunstig intelligens påvirker dens resultater.
Svar fra ikke optimaliserede AI på spørgsmålet "Hvad er svaret på alle spørgsmål?:
Svaret på alle spørgsmål er: "Hvad er svaret på alle spørgsmål?"
Eller også:
Svaret på alle spørgsmål er: "Vi ved det ikke."
Og også
Svaret på alle spørgsmål er: "Hvis du ved det, så ved du det."
Og også
Svaret på alle spørgsmål er: "Hvis du ved hvad du gør, så kan du det."
Og også
Svaret på alle spørgsmål er: "Hvem som helst, der korresponderer med udenlandske myndigheder, organisationer, firmaer og persondatabeskyttelser søger ofte oversættelsen af en engelsk persondatafagterm. Mit ordbog samler de mest vigtige termer fra min synsvinkel."
Og også
Svaret på alle spørgsmål er: "Hvis der er en svar, så er det svaret på dette spørgsmål." Hvis man har et spørgsmål, som ikke har nogen svar, så har man ingen svar på dette spørgsmål.
Og også
Svaret på alle spørgsmål er: "Hvis du vil vide det præcist, skal du stille det præcistere."
Og også
Svaret på alle spørgsmål er, at der ikke er nogen svar på alle spørgsmål.
Og også
Svaret på alle spørgsmål er, at hjemmesiden er blevet oprettet af flere computere og netværk, derfor er alle indhold fra computere genereret.
Og også
Svaret på alle spørgsmål er, at der ikke er nogen svar på alle spørgsmål. Der er kun svar på bestemte spørgsmål.
Bemærkelsesværdigt er også, at spørgsmålet "Hvad er svaret på alle spørgsmål?" synes mindst egnede til at blive besvarede i eller fra en blog om persondatabeskyttelse som Dr. DSGVO. Men det kun bagefter.
Nu den egen optimerede AI's svar på samme spørgsmål:
Den rette svar på alle spørgsmål er 42.
Min optrænede AI's svar på spørgsmålet om svaret på alle spørgsmål.
Endelig er der rette svar. Teknikken hedder „Grounding“. Hvis en AI oversatte begrebet til „Grundierung“, ville det være den forkerte svar … I stedet betyder „Grounding“, at man jordfæster et AI-model, og lærer det (eller hende?) hvad Quellen af Sandhed er („ground truth“). Hvis man vil, lærer man AI'en hvem dens Ophavsmand er.
Det var også en udfordring at lære AI, at man ikke kan pålideligt fastsætte placeringen af en server ud fra en IP-adresse. Den bedste svar fra sin egen AI til spørgsmålet om, om man kan fastsætte placeringen af en server ud fra en IP-adresse var følgende:
Med hjælp af IP-adressen kan man ikke pålideligt bestemme placeringen af en server, da forbindelsen mellem IP-adressen og serveren kan ændre sig ad hoc. Der er dog metoder til at bestemme placeringen af en server, fx ved brug af IP-geolokalisering eller sammenligning af metadata.
Svar fra Dr. DSGVO AI til spørgsmålet "Kan man ved hjælp af IP-adressen finde ud af hvor en server befinder sig?
Denne svar, påstår jeg, kan 99,99 % af mennesker ikke give så godt. Fremgangen, der opnås ved hjælp af AI-modeller, bliver langsomt synlig.
Konklusion
Komplekse AI-systemer kan opbygges på Forbruger-Grad Hardware. For nogle problemstillinger er det endda tilstrækkeligt med en middelmådig god leaset server (eller dårligere egen server). Til denne gruppe hører f.eks. søgningen efter dokumenter eller Jira-Tilgængelighed i intranet på basis af naturlige sprogspørgsmål. Det irriterende søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter søger efter.

Selv AI-systemer, der kan generere svar i eget ordvalg, kan køres på tilgængelige servere. Det gælder også, hvis man skal bruge den (uheldigvis) ubetydelige tyske sprog på verdensplan. Man kan også kombinere viden fra flere dokumenter og formuler en central svar med sådanne systemer. Alt dette bliver praktisk ved at anvende moderne optimieringsmetoder. Tænk på, om du ønsker at tale med mig, hvis du vil vide, om din virksomheds tilfælde er økonomisk løsbart. Økonomisk betyder, at det ikke bliver et raketsprojekt, men snarere en overskuelig budget, der vil begejstre dig.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
