Sinnliga data tillhör inte utländska eller amerikanska händer, som till exempel ChatGPT, Microsofts moln, Googles moln eller AWS. Hur bra att egna AI-system är möjliga och prisvärda. Nu behöver affärssekretess inte längre inbjudas i ChatGPT eller någon molntjänst. Ett experiment för en fråga-svar-assistent till denna dataskydd-blog, Dr. GDPR.
Inledning
Om vi tidigare har varit helt ointresserade av dataskydd, kanske vi nu vill se till att våra företagssekretess inte sprids ut i världen. Det kan finnas rättsligt bindande konfidentialitetsavtal för vissa dokument. Om konfidentialiteten upprätthålls när ett dokument laddas upp på ChatGPT eller Googles moln, tvivlar jag.
Datanättsvänlig: Säker för alla slags data, oavsett om det är personuppgifter (dataskydd), förtroendesaker eller affärshemligheter.
Datatrafikvänlig är mer än dataskyddsvänlig.
Även den inte sällan hatade dataskyddet kommer återigen i fokus för många. Medan sökmotorer har fått behandla data utan inblandning och fortfarande får göra det, får AI-systemen inte behandla samma data utan att fråga dataskyddsmyndigheterna. Konstigt. Ligger nog också i möjligheterna som känslig intelligens erbjuder, men säkert lika mycket i hundarnas driv (om en myndighet granskar, kan vi också göra det utan att bli betraktade som spelutvecklare, tänker sig nog många tjänstemän. Bara så är det förklarligt varför det mest inaktiva dataskyddsländer i världen (Hessen) även har ett försiktigt steg i form av en fråga till ChatGPT meddelat).
En vanlig tillämpning av artificiell intelligens är sökningen efter dokument. Krävande är fråga-svar-system eller sökmotorer som direkt levererar sammanfattningar av träff-dokument med. Min plan var att skapa ett söksystem för Dr GDPR privacy-Blog, och det ska vara Databarnduktig.
Sökassistenten för Dr. GDPR ska ge svar på frågor på naturliga språk. Här ett exempel:
Behöver min webbplats ha ett cookiesnutt?
KIs svar är bättre än de flesta människors. Svara Dr. GDPR AI: se nedan.
Hur frågan formuleras kan man gissa, är vissa frågor faktiskt uttryckta på ett annorlunda sätt än vad som är akademiskt korrekt. Många frågar till exempel om något stämmer överens med dataskyddet. Det menas oftast att en viss behandling av uppgifter är i enlighet med DS-GVO laglig.
Svaret ska ge min AI i egna ord och baserat på tidigare inlägg av Dr. GDPR. Vid detta bör Halluzinationer undvikas, det handlar ju om fakta och rättsligt relevant kunskap. Halluzinationer är uppfunna uppgifter som inte existerar. Hur Halluzinationer kommer till stånd ska jag gå in på i ett framtida inlägg. Man kan förklara dem grundligt och behöver inte vila på spekulationer.
Prototyp bevisar möjligheten
Att egna AI-systemer kan programmeras och drivas lokalt på egna servrar, har jag bevisat genom en prototyp. Den enkelaste vägen skulle ha varit en av följande möjligheter:
- Använda ChatGPTs gränssnitt, eller
- Kasta mycket pengar på problemet och glädja amerikanerna (Cloud)
- Inga mer pengar på problemet och köpa dyra hårdvaror.
Köpa dyra hårdvaror är ett sätt som större företag kan gå, men inte många små och medelstora företag. Därför har jag valt ett annat Inställningar. Vid valet av hårdvara har man beaktat kostnaderna. Man måste veta att AI-berechnungen sker på Grafikkort istället för på en vanlig dator. Grafikkortet används inte till att visa bilder eller text, utan snarare används de tusentals miniprocessorer som finns på grafikkortet för att utföra rekenintensiva uppgifter i AI snabbare än vad en enskild Einstein-processor kan göra. Tyvärr är det dyrt med grafikkort som har mycket huvudminne. Ett grafikkort med 48 GB huvudminne kostade för ett par månader sedan fortfarande 15 000 euro. För bra AI-modeller krävs dock oftare 96 GB eller till och med 400 GB dyra huvudminnen på flera grafikkort (inte lagringsutrymme från en hårddisk och inte billig RAM i datorn).
Min AI-system hänger på Minsta hårdvara, om man förstår begreppet i sammanhanget med konstig intelligens. Ett exempel: Sökningen efter (egna) dokument från företagets intranät via naturliga språkfrågor fungerar på en hyrd server av mini-klassen. Naturligtvis kan även en egen företagsserver användas. Detta lyckas genom att utnyttja optimeringsförfaranden, som man köper sig genom ytterligare teknisk komplexitet. När det är löst är komplexitetsproblemet löst.
Funkande AI-användningar och språkmodeller
Fråga-svar-assistenterna kräver dock mer än för den intelligenta sökningen efter dokument. För att hitta inte bara dokument, utan också innehåll från dessa dokument och presentera det som svar är något mer behövligt. En enkel möjlighet är en extraktivt svar. Det är ett ordagrant citat ur originaltexten. Svårare och bättre är abstraktiva svarsystem. De ger ett svar i egna ord och kan till och med kombinera kunskap från flera dokument för att ge ett svar på nya ord. Svar skulle inte ha varit möjligt med bara ett dokument. Människan hade behövt hitta, läsa och intellektuellt bearbeta många dokument. AI tar över den obehagliga, tidskrävande och framför allt av många människor inte genomförbara uppgiften och löser problemet.
Min AI-system har ambitionen att vara datavänlig. Dessutom ska den kunna köras på så billig utrustning som möjligt. Båda är möjliga, som praktiken visar.
djupare tillämpade fall som tidigare har testats: dokument sökning, text förståelse, bildskapande, bildanalys, ljudapplikationer.
När vi pratar om att söka och sammanfatta dokument menar vi vanligtvis dokument och svar på svenska. För att säga det kort och gott: svenska är tyvärr inte en världsspråk. Därför är det mycket svårare att bearbeta tyska texter med en AI-användning än engelska eller kinesiska texter (där sistnämnda skulle jag också ha svårt med).
För mitt AI-system krävs alltså ett elektroniskt hjärna (”modell”) som förstår och kan tala tyska. Det ökar kraven på en AI-arkitektur kraftigt. Men även detta problem är lösbar, som jag har upptäckt. Det genom tyskan krävande AI-modellen har en storlek som inte skulle vara användbar på billig hårdvara.
För att använda effektiva AI-system på servrar som är både prisvärda och tillgängliga i Tyskland (dataskydd! Affärshemligheter! Sekretess!) krävs några trick. När jag skapade AI-lösningen kändes det som att jag var med i "Jugend forscht!" även för den datalogen är detta komplexa ämne en utmaning, som till slut kunde lösas.
Här ett par verkliga svar som har genererats av min AI från hundratals inlägg från Dr. GDPR till de frågor som ställdes.
| Fråga | Svar genom AI |
|---|---|
| Vad innebär webbanalys? | Websspårning avser övervakningen och analysen av besökshållning på en webbplats eller i en app. Detta kan ske genom användandet av teknologier som cookies, serverloggar eller konverteringsföljande. Målet är att samla in data om användarna för att öka förståelsen av besökshållningen. |
| Är IST-tracking enligt GDPR-konform? | Yes, spårningen är i överensstämmelse med GDPR, om insamling, lagring och bearbetning av personuppgifter sker enligt kraven i GDPR. Dataskyddspolicyn måste göra det möjligt för användarna att få tillgång till en motsvarande förklaring, och samtycke måste ha getts. Användningen av kakor kräver vanligtvis ett samtycke. Google Analytics kan bara rättfärdigas om ett samtycke finns eller det finns lämpliga garantier för att mottagaren av uppgifterna, alltså Google, inte använder dessa uppgifter för egna ändamål. |
| Vem är Max Schrems? | Max Schrems är en österrikisk dataskyddskämpe och medgrundare till organisationen noyb (None Of Your Business), som arbetar för tydliga och begripliga uttryck av dataskyddsinstruktioner i praktiken. Han är också initiativtagare till flera rättsprocesser mot Facebook och andra amerikanska företag på grund av brott mot dataskydd genom de amerikanska övervakningsprogrammen. |
| Vad är kakor? | Kakor är datamängder som används av en webbplats. De består av ett par data, ett nyckel och ett värde. En kakor hanteras av webbläsaren på användarens enhet och lagras därmed också. Kakor kallas ofta felaktigt för textfiler, vilket dock inte stämmer. |
| Vad är IP-adresser? | IP-adresser är en sifferserie som tilldelas varje enhet på internet för att skilja den från andra enheter på internet. De är en slags adress som är knuten till varje enhet på internet och möjliggör åtkomst till andra enheter på internet. IP står för Internet Protocol. |
| Är IP-adresser personuppgifter? | Yes, IP-adresser är personuppgifter eftersom de direkt eller indirekt pekar på en person. Detta har EU-domstolen och Bundesgerichtshof bekräftat i sina Breyer-diskussioner 2016 respektive 2017. Cookies som överförs tillsammans med en IP-adress till en webbplats är också personuppgifter eftersom de är kopplade till den personbehandlade nätverkadressen. |
| Vem gäller GDPR för? Jag vill veta exakt det! | Dataskyddsförordningen gäller för alla företag som behandlar personuppgifter. Detta inkluderar såväl företag som är etablerade inom EU, som även de som är etablerade utanför EU men behandlar personuppgifter från EU-medborgare. |
| Applikeras GDPR även på Dr. GDPR? | Yes, GDPR gäller även för Dr. GDPR. Detta anges tydligt i företagets dataskyddspolicy, som drivs av Dr. GDPR. Dataskyddspolicyn kan hittas på företagets webbplats och innehåller alla relevanta uppgifter om hur företaget behandlar personuppgifter. |
| I vilka fall gäller GDPR? | Dataskyddsförordningen gäller när en berörd person upplever att hennes dataskyddsrätt har blivit kränkt och gör gällande ett förbudskrav. |
| Är Cloudflare onda? | Käll dokumenten tyder på att Cloudflare inte kan användas i enlighet med dataskyddsförordningen. Det finns också rykten om möjliga manipuleringar av data genom Cloudflare. |
| Är Klaus Meffert ond? | Baserat på de tillgängliga källmaterialet kan jag inte bedöma om Klaus Meffert är ond. Det finns inga uppgifter om vad det innebär att vara ond eller om Klaus Meffert någonsin varit eller är ond. |
| Vad är konstig intelligens? | Artificiell intelligens (AI) är utvecklingen av datorer och programvara som har mänskliga förmågor, såsom lärande, problemlösning, språkförståelse och -produktion, sinnesuppfattning, handlingskontroll och självständiga beslut. |
| Fungerar IT-säkerhet utan dataskydd? | IT-säkerhet och dataskydd är nära förbundna, som framgår av det här dokumentet. IT-säkerhet och dataskydd är beroende av varandra enligt definitionen, som nämns i artikel 32 GDPR. Dataskyddet ska garanteras av den ansvarige, som framgår av ISO 27001. Dataskyddslagstiftningen, särskilt GDPR, reglerar skyddet för data som är personuppgifter eller hanteras i användardrivna enheter. IT-säkerhet och dataskydd är alltså faktiskt nära förbundna med varandra. |
| Kan vanliga människor råda någon juridiskt? | Yes, normala människor får råda någon juridiskt så länge de inte utför en djupgående juridisk individuell bedömning. Dataskyddsrådgivning kan också ges av någon som inte är advokat. Det RDG verkar föråldrat och överhuvudtaget. Som dataloger vill jag ha samma rättigheter som advokater att skydda mitt arbetsområde mot obehöriga tjänster. |
Dessa svar har inte genererats med hjälp av ChatGPT eller något annat tredje system. Även dokument sökningen har genomförts med en lokal vektor-sökning och inte med Pinecone (dataskydd m.m.).
Svar som i största allmänhet överensstämmer med vad jag skulle skriva under. Vid frågan om GDPR gäller, måste man dock tillägga att den inte bara gäller för företag. Sådana detaljer kan en AI inte riktigt leverera utifrån de befintliga inmatningsdata som finns. Det ligger dock i första hand hos inmatningsdata och i andra hand även hos modellen, som ännu inte har optimerats.
Vissa frågor har formulerats "dumt" och exempelvis om GDPR även gäller för Dr. GDPR är ett sådant fall. Även om min egen AI inte svarar perfekt på den här typen av fråga, skulle jag beskriva det som väldigt bra. Andra kanske har andra förväntningar. Om du har väsentligt högre förväntningar än de jag tycks ha, så verkar ett datadrivet frågesvarssystem inte vara aktuellt för dig.
Frågan om i vilka fall GDPR gäller är tvetydig. Dr. GDPR AI:s svar är bra, men inte optimalt. För det angivna svaret behöver ingen vara stolt över, tycker jag. Även om kritiken här handlar om högsta nivå om jämförelsen "genomsnittsmänniska som inte vet något om dataskydd" med "dataskyddsproffs som tror att han vet mycket" (med dataskyddsproffs menar jag här vem som helst, för att undvika missförstånd).
Nu till frågan om webbsidor behöver ett cookie-popup:
Fråga: Måste min webbplats ha ett cookie-påkall? Antwort från Dr. GDPR AI: Nej, en webbplats behöver inte ha ett cookie-fönster. Cookies är bara ett hjälpmedel för att identifiera användaren och få servern att skicka vissa informationer till användaren. En webbplats kan också fungera utan cookies, till exempel genom att använda JavaScript.
Svaret är i grunden rätt och överträffar majoriteten av mänskligheten. Den teknikintresserade dataskyddsexperten skulle dock ändå inte vara helt nöjd med svaret.
Optimering av en AI
För att en kI ska ge bra svar är det långt kvar, men detta måste bara gå en gång. Jag har tagit stora steg på denna väg. Resultaten ovan kommer från den ännu inte mycket optimerade AI-användningen.
Problemet med språkmodeller som ska ge svar i eget ordval är en överlappning av inmatade fakta (kontext kallat) och det inhärdiga kunskapen i språkschatullen. Att lära sig ett språk lyckas faktiskt inte utan att man på samma gång tar till sig kunskap (eller falska uppgifter).
Detta problem blir tydligast när man frågar vad kakor är. Nästan hela internet hävdar felaktigt att kakor är textfiler. Detta är fel, som jag tidigare har beskrivit och bevisat. I mitt AI-språkmodell, som baseras på många texter från internet, är denna falska information fast inprickad. När jag nu lägger in artiklarna från Dr. GDPR-bloggen i min AI kommer dessa dokument med er uttalande "Kakor är datamängder" knappt att stämma överens med den felaktiga påståendet om kakor som textfiler, som tyvärr är fast inprickad i språkmodellen. Ett språkmodell kan ibland inte så bra skilja mellan konjunktiv och indicativ. Jag hade använt konjunktiv till kakor två meningar tidigare. Bara det kunde förvirra en AI, om den här artikeln du läser nu läggs in i ett AI-modell.
Alla människor är dumma, och det gäller i de flesta kunskapsområden. AI-system kan vara betydligt intelligenta inom många kunskapsområden än den mest begåvade experten inom ett specifikt område.
Bevis för den första meningen: Titta dig omkring. Bevis för den andra meningen: Se GPT-4 samt några av exempel som visas nedan.
Jag har inte låtit bli att utöka kontexten för mitt fråga-svar-system och genomfört ytterligare optimeringar. Ett AI-modell kan dock inte tränas på obegränsad nivå om den nödvändiga superdatorn inte är tillgänglig. Därför var jag tvungen att använda ressursbesparande metoder. Det känns som en maratonlopp mot alltmer nya problem. För när ett problem har lösts väntar nästa, som utvecklas ur lösningen av det tidigare problemet.
Här ett exempel: För att AI-modeller ska kunna passa i en grafikkortsminne som fortfarande ansågs vara högklassigt för två år sedan, finns möjligheten till kvantisering. I korthet görs från antalet med hög precision antal med låg precision utan att kvaliteten på den artificiella intelligensen försämras. Nu stöder dock de senaste programbiblioteken tyvärr inte alla träningssätt för AI-modeller, om kvantisering används. Därför måste andra metoder införas som löser detta problem. Men då uppstår återigen problem vid fine-tuning etc.
Ett exempel på hur optimering av en artificiell intelligens påverkar dess resultat.
Svar från icke optimerad AI på frågan "Vad är svaret på alla frågor?":
Svaret på alla frågor är: "Vad är svaret på alla frågor?"
Eller också:
Svaret på alla frågor är: "Vi vet inte."
Och ännu
Svaret på alla frågor är: "Om du vet det, så vet du det."
Och ännu
Svaret på alla frågor är: "Om du vet vad du gör, så kan du göra det."
Och ännu
Svaret på alla frågor är: "Vem som jag med utländska myndigheter, organisationer, företag och dataskyddare korresponderar, letar ofta efter den engelska översättningen för en dataskyddsproffs-term. Min ordbok samlar de från min synvinkel viktigaste begreppen."
Och ännu
Svaret på alla frågor är: "Om det finns ett svar så är det svaret på denna fråga." Om man har en fråga som inte har något svar, så har man inget svar på den här frågan.
Och ännu
Svaret på alla frågor är: "Om du vill veta det exakt måste du ställa frågan mer exakt."
Och ännu
Svaret på alla frågor är att det inte finns något svar på alla frågor.
Och ännu
Svaret på alla frågor är att webbplatsen har skapats av flera datorer och nätverk, så all innehåll är datorgenererad.
Och ännu
Svaret på alla frågor är att det inte finns något svar på alla frågor. Det finns bara svar på vissa frågor.
Bland annat ska nämnas att frågeställningen "Vad är svaret på alla frågor?" tycks vara oanvändbar för att besvaras i eller från en blogg om dataskydd som Dr. GDPR, men det bara tillägg.
Nu den egna optimerade AI svar på samma fråga:
Svaret på alla frågor är 42.
Min förbättrade AI:s svar på frågan om svaret på alla frågor.
Slutligen finns det rätt svar. Tekniken heter "Markering". Om en AI skulle översätta begreppet till "grundierung", vore det fel svar … Istället betyder "Markering" att man jordar ett AI-modell, lära in det (eller henne?) vad källan till sanningen är ("ground truth"). Om man vill, lär man AI:et vem dess föräldrar är.
Det var också utmanande att lära in AI att man inte kan pålitligt bestämma en servers plats med hjälp av dess IP-adress. Den bästa svaret från egen AI till frågan om man kan bestämma en servers plats med hjälp av dess IP-adress var följande:
Med hjälp av en IP-adress kan man inte pålitligt bestämma var en server befinner sig, eftersom den kan ändras när som helst. Det finns dock metoder för att bestämma var en server befinner sig, till exempel genom att använda IP-geolokalisering eller jämföra med metadata.
Svars från Dr. GDPR AI på frågan "Kan man med hjälp av IP-adressen upptäcka var en server är belägen?
Jag påstår att denna svar kan ge 99,99 % av alla människor inte lika bra. Framstegen som uppnås med hjälp av AI-modeller blir alltmer synliga.
Sammandrag
Komplexa AI-system kan uppföras på Consumer-Grade Hardware. För vissa problemställningar räcker till och med en mittelmåttsgod hyrd server (eller sämre egen server). Till den senare gruppen hör till exempel sökning efter dokument eller Jira-tiketter i intranätet på basis av naturliga språkfrågor. Det irriterande letandet efter sökbegrepp, där det högsta känslomässiga uppsvinget tidigare var den automatiska synonymsökningen, kan tillhöra förflutenhet.

Selv AI-system som kan generera svar i eget språk kan drivas på betalda servrar. Det gäller även om den internationellt (tyvärr) obetydliga tyska språket ska användas. Även kombinationen av kunskap från flera dokument och formuleringen av en central svar är möjligt med sådana system. Allt detta blir praktiskt genom tillämpning av moderna optimeringsmetoder. Kontakta mig om ni vill veta om era företags fall kan lösas på ett ekonomiskt sätt. Ekonomiskt betyder att det inte kommer bli en raketerprojekt, utan snarare ett rimligt kostnadsram som kommer att inspirera er.



My name is Klaus Meffert. I have a doctorate in computer science and have been working professionally and practically with information technology for over 30 years. I also work as an expert in IT & data protection. I achieve my results by looking at technology and law. This seems absolutely essential to me when it comes to digital data protection. My company, IT Logic GmbH, also offers consulting and development of optimized and secure AI solutions.
